偽のジェミニハンズオンビデオは、AIの未来ではなく、Googleの巧妙な手腕を示している

  • abmhh
  • 0 comments
偽のジェミニハンズオンビデオは、AIの未来ではなく、Googleの巧妙な手腕を示している
Google Geminiの偽ハンズオン動画
Googleは、Google I/O 2023で偽の動画を使ってGemini AIモデルを披露した。 (画像提供:Google)

Googleは今週、Geminiを発表しました。ChatGPTの競合となるGeminiは、テキスト、画像、音声、動画、コードと対話できるマルチモーダルAIです。Google I/O以降、Geminiへの期待は高まっていましたが、ようやくAIモデルの裏側が見えてきました。そして、その実態は決して美しいものではありません。

Geminiは有望ではあるものの、Googleが公開したハンズオン動画は偽物であるため、この新しいツールへの期待は控えめにする必要があります。これは強い言葉に聞こえるかもしれませんが、ブルームバーグのパーミー・オルソン氏は、Googleの動画がGeminiの現実世界での動作を反映していないことを示しました。

Googleがこの動画をどのように制作したかを説明する前に、この動画が完全に作り話ではないことを明確にしておきたい。GoogleはGeminiを使って物体を識別し、画像内で何が起こっているかを把握した。しかし、GoogleはGeminiを使った実際の体験を示す本格的なハンズオン動画を作成していなかった。

製品のハンズオン動画を見るときは、実際の使用状況を反映した内容が期待されます。例えば、YouTubeのレビュアーが新しいVRヘッドセットのハンズオン動画を投稿した場合、実際のゲームプレイ、視界の様子、操作性の良さなどがわかる動画が求められるでしょう。同様に、スマートフォンのハンズオン動画も、早送りされた動画や動画をつなぎ合わせた動画ではなく、スマートフォンの実際の操作方法を示すべきです。

ほとんど、いや、ほとんど全ての製品デモは、つなぎ合わせたようなもので、強調されている製品の欠点を全く示していない、という意見もあるかもしれません。しかし、よく言われるように、二つの間違いが一つの正解を生むことはありません。

GoogleがGeminiのハンズオンを偽装した方法

動画では、ユーザーがカップの中にボールを隠そうとしたり、アヒルを描いたり、地図を使ってゲームをしたりと、様々なタスクを実行しています。動画全体を通して、Gemini はリアルタイムで何が起こっているのかをナレーションで説明し、その場ですべてを理解しています。しかし、動画ではGoogleがGeminiのデモを作成するためにテキストプロンプトを使用し、コンテキストを提供していたことは分かりません。

Googleは、撮影したコンテンツの静止画フレームに基づいてGeminiにヒントを与えました。その後、AIモデルにテキストでヒントを与え、最後にナレーションを追加しました。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

実際、動画に映っている指示は、Geminiに与えられた指示ではありません。動画では、Geminiがテーブルに置かれた3つのカップを見て、ユーザーがゲームをプレイしようとしていると即座に判断したように見えます。しかし実際には、GoogleはGeminiにゲームの遊び方をトレーニングし、その後、非常に具体的な指示に従う能力をテストしました。このような状況下でも、Geminiはタスクを完璧にこなせるわけではありません。

「もちろん、このチャレンジを常に正しくクリアできるとは限りません。フェイクアウト(空のカップ2つを交換する)でつまずくこともありますが、それもうまくいくこともあります。しかし、このようなシンプルなヒントのおかげで、Geminiを素早くテストするのは本当に楽しいのです」とGoogleは説明している。

Google の Gemini ハンズオン ビデオで、手品として知られるトリックが使われていたのは、むしろ適切だ。

Googleは偽のGeminiビデオを擁護

「Geminiハンズオン」動画へのご関心をいただき、大変嬉しく思います。昨日の開発者ブログでは、この動画の作成にGeminiがどのように使われたかを詳しく説明しました。https://t.co/50gjMkaVc0Geminiに様々なモダリティ(今回は画像とテキスト)のシーケンスを与え、反応を確認してみました… pic.twitter.com/Beba5M5dHP 2023年12月7日

Googleの研究担当副社長兼ディープラーニングリーダーであるオリオール・ヴィニャルズ氏は、Xに関するビデオを擁護した。

「動画内のユーザープロンプトと出力はすべて実際のもので、簡潔にするために短縮されています。この動画は、Geminiで構築されたマルチモーダルなユーザーエクスペリエンスがどのようなものになるかを示しています。開発者にインスピレーションを与えるために制作しました」とVinyals氏は述べています(強調追加)。

こんなことを言わなきゃいけないなんて驚きです。「こうなるかもしれない」というのは、ハンズオン動画ではありません。

Googleは動画内で、同社がどのようにコンテンツを制作したかを説明するブログ記事へのリンクを貼っています。そのブログ記事は、GoogleがGeminiにそのように反応させるために複数のプロンプトやヒントを用いたという事実を隠していません。しかし、動画の説明欄の「…続きを読む」セクションの下にブログ記事へのリンクがあるからといって、動画で何が起こっているかを説明しているわけではありません。「ハンズオン」という表現の誤用を正すわけでもありません。

もう少し透明性が必要です

Google Geminiの偽ハンズオン動画

(画像提供:Google)

Googleがなぜあんなことをしたのかは理解できます。Amazonは今年初めにEcho Show 8のライブデモを披露しようとしましたが、うまくいきませんでした。「ヘイ、アレクサ」と呼びかけても反応が遅く、パフォーマンスも良くなく、デバイスの評判を落としていました。

しかし、もし製品の真のライブデモがその製品の印象を悪くするのであれば、人々はそれを知るべきだと私は思います。ゲームのトレーラーは素晴らしいのに、ゲームがひどいとしたら、人々は誤解されたと憤慨するでしょう。Googleのハンズオン動画がそれとどう違うのか、私には分かりません。

ショーン・エンディコットはWindows Centralのテクノロジージャーナリストで、Windows、Microsoftソフトウェア、AI、PCを専門としています。Windows 10と11からChatGPTのようなAIツールの台頭まで、主要なリリースを取材してきました。ショーンのキャリアはLumia 930から始まり、アプリ開発者との強いつながりを築きました。執筆活動以外では、アメリカンフットボールのコーチも務めており、チームの運営にMicrosoftのサービスを活用しています。ノッティンガム・トレント大学で放送ジャーナリズムを学び、X(@SeanEndicott_)とThreads(@sean_endicott_)で活躍しています。