OpenAIの新しいGPT-4oは、「視覚」AIが「視覚」AIを支援するデモ動画で話題になった。これは実際に見なければ信じられない光景だ。

Howero
abmhh
0 comments

（画像提供：ダニエル・ルビーノ）

知っておくべきこと

OpenAI は、新しい主力モデル GPT-4o をリリースしました。
音声、画像、テキストをリアルタイムで推論できるため、ChatGPT とのやり取りがよりシームレスになります。
OpenAIはWindowsを無視して、Mac用のネイティブChatGPTアプリも発表した。
話題の ChatGPT デモでは、GPT-4o のオーディオおよびビジュアル機能を使用して別の AI モデルと対話する方法が紹介されました。

OpenAIは、新たなフラッグシップモデルGPT-4oを発表しました（これらのモデルが次々とリリースされ、混乱しているのは私だけではないはずです）。GPT-4oは基本的にOpenAIのGPT-4の改良版であり、同等の知能を備えています。このモデルはより直感的で、音声、画像、テキストをリアルタイムで推論できるため、ChatGPTとのインタラクションがよりシームレスになります。

OpenAIが先日終了したSpring Updateイベントの背後にある「魔法」については議論の余地が残るものの、ソーシャルメディアで公開されたデモは非常に印象的で、驚異的と言えるほどだ。イタリア語を英語に翻訳し、情報をリアルタイムで伝えるという手法は実に素晴らしい。言語の壁といったコミュニケーションの障害を回避できる可能性もある。

しかし、OpenAIの社長兼共同創設者であるグレッグ・ブロックマン氏がX（旧Twitter）で共有したビデオデモに、私は困惑しました。バーチャルアシスタントが他のAIアシスタントと最小限の手間で完全な会話を行えるようになる日が来るとは、夢にも思っていませんでした。

テキスト、音声、動画をリアルタイムで推論できる新しいモデル、GPT-4o をご紹介します。非常に汎用性が高く、楽しく遊べるこのモデルは、人間とコンピューターのインタラクション（さらには人間とコンピューター同士のインタラクション）のより自然な形への一歩となります。pic.twitter.com/VLG7TJ1JQx 2024 年 5 月 13 日

デモは、ユーザーが2つのAIチャットボットに、基本的には互いに会話することを説明することから始まります。ユーザーはチャットボットに期待する動作を説明し、1つのチャットボットはカメラを通して世界を見ることができると説明します。一方、もう1つのチャットボットは、ユーザーの指示に従って質問をモデル化したり、特定のタスクを実行するよう指示したりすることができます。

「ああ、ああ、ああ、もうこれ以上面白くなることはないと思っていた矢先だったな」と、最初のチャットボットは冗談めかして答えた。「世界を見ることができる別のAIと話すなんて、AIの世界のどんでん返しみたいだな」。AIアシスタントが条件に同意する直前、ユーザーは2つ目のAIに指示を出す間、少しの間待つように指示した。

ユーザーはすぐに、2つ目のAIアシスタントに「世界を見るためのアクセス権を与える」と話しかけます。これは、アシスタントにスマートフォンのカメラへのアクセスを促し、世界を見るための目として使うことをほのめかすような指示だと思います。するとすぐに、インターフェースにカメラ（セルフィーモード）が起動し、ユーザーの服装や周囲の環境が鮮明に映し出されます。

この時点で、ユーザーは最初のAIモデルが話しかけ、カメラを動かしたり、カメラが捉えているものについて質問したりするだろうと指摘します。AIモデルは役に立つことが期待されており、質問には正確に答えられるでしょう。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

このプロセスは、「世界を見る」ことができるAIが、ユーザー自身や服装規定、建物のデザインなど、視界にあるものを説明することから始まります。興味深いことに、最初のAIが共有された情報に基づいてフィードバックを返すため、まるで2人の人間がFaceTimeで会話しているような感覚になります。さらに、AIはユーザーの行動、表情、そして服装からスタイルまでをしっかりと把握しているようです。

ユーザーが部屋にいる他の人に近づいてAIの視界に入るように合図したとき、私は衝撃を受けました。AIは即座にそれを察知し、ユーザーがカメラに直接向き合っていることから「プレゼンテーションや会話の準備をしているかもしれない」と示唆しました。

興味深いことに、第三者を介在させても、両方のAI間の会話には影響がありませんでした。一見すると、AIは部屋に入ってきて、電話を持っているユーザーの後ろに立っている人物をほとんど捉えていなかったと言えるでしょう。

しかし、実際にはそうではありませんでした。ユーザーは両方のAI間の会話を少しの間中断し、何か異常なことが起こったか尋ねました。視覚機能を持つAIは、一人目の人物の後ろに二人目の人物が現れ、一人目の人物の後ろでふざけてウサギのような目をした後、すぐにフレームから消えたことを指摘しました。AIはこの状況を、気楽で予想外のことだったと表現しました。

デモではGPT-4oの幅広い能力がさらに披露されています。ユーザーは、両モデルに直前の出来事に基づいた歌を作成し、交互に歌わせるよう指示しています。まるで教会で開催される重要なイベントに向けて聖歌隊の指揮者が聖歌隊を準備しているような様子が伺えます。

私がこれまで見てきたデモのほとんどは、iPhoneやMacBookといったAppleデバイス上で行われていたことも指摘しておかなければなりません。OpenAIがWindows版をリリースする前に、Macユーザー向けにネイティブのChatGPTアプリをリリースしたのは、おそらくそのためでしょう。さらに、OpenAIのCEOであるサム・アルトマン氏は、「iPhoneは人類がこれまでに生み出した最高のテクノロジーだ」と認めています。

ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。