ChatGPT であなたの見ているものを見せてください: 音声と画像の機能はライブです (有料)

知っておくべきこと
- OpenAI は ChatGPT に画像認識機能と音声認識機能を追加しました。音声認識機能はモバイル デバイス専用で、新しい高度な音声合成エンジンも搭載されています。
- どちらの機能も、ChatGPT Plus または ChatGPT Enterprise のサブスクリプションが必要です。
- このアップデートは、今後 2 週間にわたって、世界中の英語圏のユーザーに段階的に展開されます。
ChatGPTは、双方向の音声と画像によるコミュニケーションを実装することで、より自然なユーザーエクスペリエンスの開発に取り組んでいます。理論的には、ユーザーは入力や最適なプロンプトの検討に費やす時間を減らし、回答を見る時間を増やすことができます。OpenAIは最近のブログ投稿でこれらの新機能を段階的に展開していく計画を詳しく説明し、誰がいつアクセスできるかを説明しています。
20ドルの個人向けChatGPT Plus、またはビジネス向けのEnterpriseサブスクリプションにご加入のお客様は、今後2週間以内に全プラットフォームで画像ベースのプロンプトと応答をご利用いただけるようになります。一方、音声会話はiOSとAndroidデバイス限定で、アプリの「設定」メニューの「新機能」から手動でオプトインできます。OpenAIは、これらの新しいモードを段階的に導入することでエラーを軽減することを目指しています。まだご利用いただけなくてもご安心ください。
ChatGPTは、見る、聞く、話すことができるようになりました。今後2週間かけて展開されるPlusユーザーは、ChatGPT(iOSおよびAndroid)で音声会話をしたり、会話に画像を挿入したりできるようになります(全プラットフォーム)。https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb 2023年9月25日
この技術はすでに存在しているのではないですか?
OpenAIはこの発表を誇らしげに見せているようだが、音声認識やテキスト読み上げ技術は長年存在していた。ほぼすべてのスマートフォンアプリで音声を音声テキストに変換できるが、結果の品質は基盤となるコードによって異なる場合がある。ChatGPTは現在、社内開発者が開発したオープンソースの音声認識システムWhisperを採用し、プロの声優と提携して、よりリアルな音声を生成AIに学習させている。
モバイル版Bing ChatのようなAIアシスタントは既にスマートフォンに搭載されていますが、ChatGPTは、応答時間が短い新しい音声会話機能を提供します。音声プロンプトの解釈から自然な返答までの時間を短縮する機能は、小さな画面での入力を好まない人にとって間違いなく魅力的でしょう。
発表で明らかになった興味深い情報には、Whisper モデルが「テキストと数秒のサンプル音声だけから人間のような音声を生成」する方法が詳しく記載されており、これはユーザーが AI アシスタント用にカスタムメイドの音声をデジタル化するというコンセプトとして、より刺激的なものになる可能性がある。
ChatGPT は見たものをどうやって理解できるのでしょうか?
今回のアップデートで最も注目すべき点は、ChatGPTがユーザーが提供するあらゆる画像から詳細を推測できる新機能です。スマートフォンのカメラを起動して素早く写真を撮るだけで、必要に応じて特定の質問箇所を強調表示できます。デモ動画では、自転車のサドルを下げるのに助けを求めるユーザーが紹介されています。すると、アプリは必要な道具に関する詳細な質問とともに、詳細な回答を返してくれます。当然のことながら、誤認や幻覚の可能性がすぐに頭に浮かび、OpenAIは今後の課題を認識しています。
より広範囲に展開する前に、過激主義や科学的熟達度などの領域におけるリスクについてモデルをテストし、責任ある使用のためのいくつかの重要な詳細を一致させることができました。
オープンAI
OpenAIは既に「Be My Eyes」というAI搭載モバイルアプリの開発実績があります。これは、視覚障害者コミュニティと、カメラが向けているものの説明を手伝ってくれるボランティアを繋ぐものです。このアプリとChatGPTニューラルネットワークを組み合わせることで、情報データベースを活用し、物体や風景の正確な識別能力が時間とともに向上していくでしょう。しかしながら、AIが個人の外見について発言することを制限することは、倫理ガイドラインと技術的限界とのバランスを取る上で重要な課題です。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
この画像認識コードはGPT-3.5とGPT-4を組み合わせており、現実世界の写真からデジタルスクリーンショット、テキスト文書まで、あらゆるものを認識できます。ChatGPTのほぼ限定的な可能性に関連する他のすべてのものと同様に、OpenAIはこの新興技術が主に英語に焦点を当てていると説明しています。しかし、これは将来的に変化する可能性があり、近年の(そして急速な)生成AIの歴史を考えると、十分に可能性は高いと思われます。
ベンはWindows Centralのシニアエディターとして、テクノロジーのハードウェアとソフトウェアに関するあらゆる情報を網羅しています。最新のWindowsノートパソコン、カスタムゲーミングデスクトップの内部コンポーネント、そしてPCやXboxと互換性のあるあらゆるアクセサリを定期的にハンズオンで使用しています。ガジェットを分解して仕組みを解明することに生涯を捧げてきたベンは、家電量販店とテクニカルサポートで10年間の経験を積んだ後、テクノロジー専門のジャーナリズムの道へと進みました。