ボストンダイナミクスのロボットがChatGPTを活用して話し始めたとき、こんなことが起こった。

  • abmhh
  • 0 comments
ボストンダイナミクスのロボットがChatGPTを活用して話し始めたとき、こんなことが起こった。
チャット(ロ)ボット
(画像提供:ボストン・ダイナミクス)

知っておくべきこと

  • エンジニアのグループは最近、生成 AI 機能を活用して、ボストン ダイナミクスの敷地内をツアー ガイドとして回るロボットを開発しました。
  • ボストン・ダイナミクスは、膨大なデータセットを用いてAIシステムを訓練しました。開発チームは、この発明は素晴らしいものの、幻覚症状の発生など、いくつかの問題に直面したことを認めています。
  • このロボットは OpenAI の GPT-4 モデルをベースにしていますが、開発チームは応答を制御するために迅速なエンジニアリング手法を採用しました。 

あらゆる意味で、生成型AIは私たちの日々の活動を何らかの形で変革しつつあります。生徒が複雑な数学の問題を解くのを手伝ったり、詩を書いたり、さらには想像力やヒントに基づいて画像を生成することまで、AIは多岐にわたります。これらの事例から、この技術はユーザーがより多くの道筋や未開拓の機会を探求するのに役立つため、未来は明るいと言えるでしょう。

未開拓の機会といえば、ボストン・ダイナミクスは最近、生成AI機能を活用することで新たな高みに到達したことを公表しました。同社は、ChatGPTやその他のAIモデルと統合されたSpotロボットを用いて、ツアーガイドとして機能するように設計されたロボットを開発しました。

アメリカのエンジニアリング・デザイン企業である同社は、犬型ロボット「スポット」をはじめとするロボットの開発を専門としています。これらのロボットは、反復的で危険を伴う複雑な作業を担うユーザーの作業を楽にし、生産性を向上させると同時にユーザーの安全も確保するように設計されています。 

特に興味深かったのは、SpotがFoundation Modelsを自律ツールとして利用する、つまりFMの出力に基づいてリアルタイムで意思決定を行うデモでした。ChatGPTのような大規模言語モデル(LLM)は、基本的に非常に大規模で高性能なオートコンプリートアルゴリズムです。テキストストリームを取り込み、次のテキストを予測します。LLMがロールプレイングを行い、文化やニュアンスを再現し、計画を立て、時間の経過に伴う一貫性を維持するといった明らかな能力、そして最近リリースされた画像にキャプションを付けて簡単な質問に答えることができるVisual Question Answering(VQA)モデルに刺激を受けました。

マット・クリンゲンスミス、ソフトウェアエンジニア

膨大なデータセットでトレーニングされた大規模AIシステムの出現は、マット・クリンゲンスミス(プリンシパル・ソフトウェア・エンジニア)の関心を掻き立てました。主な理由は、これらのモデルの一部である「エマージェント・ビヘイビア」です。エマージェント・ビヘイビアとは、AI搭載チャットボットが、トレーニングのベースとなるデータ以外のタスクを実行できる能力のことです。 

マットはこれを素晴らしい機会と捉え、ロボット開発への影響を探ることを目的としたプロジェクトを今年の夏に開始しました。

ロボットツアーガイドはどのように機能しますか?

ソフトウェアエンジニアは、ロボットツアーガイドの開発がこの理論を検証する最も簡単で迅速な方法であると明かしました。基本的に、このロボットは会社の敷地内を歩き回り、物体を観察する機能を備えています。 

さらに、ロボットはVQA(キャプションモデル)を活用して視界内のオブジェクトを記述し、大規模言語モデル(LLM)を用いてその記述をさらに詳細化します。LLMを通じて、ロボットは視聴者からの質問に答えたり、次に取るべき行動を計画したりすることも可能です。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

Bing ChatのようなLLMは幻覚症状などの問題に直面してきましたが、ロボット開発チームにとって大きな懸念事項ではありませんでした。チームはエンターテインメント性とインタラクティブ性を重視していました。さらに、ロボットの歩行機能はSpotの自律走行SDKで既に実現されていました。ボストン・ダイナミクスはSpot SDKを活用して、Spotロボットの自律走行動作の開発をサポートしています。 

コミュニケーションを目的として、チームはロボットツアーガイドにLED付きリングアレイマイクを装着したRespeaker V2スピーカー用の耐振動マウントを3Dプリントしました。これにより、ロボットは観客の声を聞き、質問に答えることができます。

この前提に基づき、チームはOpenAIのChatGPT APIをGPT-3.5モデルから統合し、最終的にはGPT-4の一般提供開始後にロボットのコミュニケーション能力をさらに向上させるためGPT-4に移行しました。ロボットが制御不能になったり、不快な応答をしたりしないようにするため、チームは迅速なエンジニアリング手法を採用しました。

ロボットの開発チームによると:

Microsoft の手法に着想を得て 、ChatGPT に Python スクリプトの次の行を記述しているように見せかけました。LLM にはコメント形式で英語のドキュメントを提供しました。そして、LLM の出力を Python コードであるかのように評価しました。

チームはまた、ロボットに統合された LLM が Spot 自律 SDK にもアクセスできることを明らかにしました。これは、各場所の 1 行の説明がバンドルされたツアー サイトの詳細な地図であり、応答したり質問したりする機能も備えています。

テキスト音声変換

チャットロボット

ボストン・ダイナミクスのツアーガイドとして、マット・クリンゲンスミス氏がチャットロボットと対話している様子。(画像提供:ボストン・ダイナミクス)

ロボットはコミュニケーションにChatGPTを多用していますが、チャットボットはテキストベースであることは明らかです。そのため、ElevenLabsというクラウドサービスを利用して、テキスト読み上げツールとして開発されました。

研究チームは、ロボットのグリッパーカメラとボディ前面カメラをBLIP-2に組み込みました。これにより、BLIP-2は見たものを解釈し、文脈を提供することが容易になります。研究チームによると、BLIP-2は画像と映像を「視覚的な質問応答モード(「この写真の何が面白いですか?」といった簡単な質問)または画像キャプションモードのいずれかで」少なくとも1秒に1回実行したとのことです。

リアルな会話

チームは、ツアー中にロボットとインタラクションする際に、観客にまるで生きているかのような体験を提供したいと考えました。そのため、この体験を生き生きと表現するために、デフォルトのボディランゲージを取り入れました。Spot 3.3のリリースにより、ロボットは特定の概念を説明しながら、最も近くにいる人に腕を向けることができるようになりました。

開発プロセスは実に壮観で、チームは数々の驚きに遭遇しました。例えば、マーク・レイバート氏について尋ねられた際、ロボットは「分からない」と答え、ITヘルプデスクでさらにサポートを受けることを推奨しました。しかし不思議なことに、開発チームは法務・ ...

マット氏によると、ロボットガイドは素晴らしいものの、深刻な幻覚症状に陥り、事実を捏造する様子が目撃されたという。また、安定したインターネット接続が確立できない場合、ロボットのパフォーマンスに悪影響が出ることも忘れてはならない。

今後、チームは、特に複数の汎用 AI システムの結果を統合することが可能であることを発見した後、この道をさらに探求することを目指しています。

ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。