「AI エージェントで 150 のタスクを自動化しました。そのまま真似してください」: Microsoft の Windows Agent Arena が AI を導入…

  • abmhh
  • 0 comments
「AI エージェントで 150 のタスクを自動化しました。そのまま真似してください」: Microsoft の Windows Agent Arena が AI を導入…
HONOR マジックブック アート 14 (2024)
(画像提供:ダニエル・ルビーノ)

知っておくべきこと

  • 今月初め、マイクロソフトは、現実的な Windows オペレーティング システム環境で AI エージェントをテストするためのプラットフォームを提供することを目的として設計された、Windows Agent Arena という新しいベンチマークを発表しました。
  • 初期のベンチマークでは、マルチモーダル AI エージェントの平均パフォーマンス成功率は 19.5% であるのに対し、人間の平均パフォーマンス評価は 74.5% であることが示されています。
  • このベンチマークはオープンソースであり、AIエージェントの開発を大幅に促進する可能性のある詳細な研究の道筋を提供します。しかしながら、セキュリティとパフォーマンスに関する重大な懸念が数多く存在します。

生成型AIの登場とその広範な導入により、AI技術は単純なテキストや画像ベースのプロンプトから急速に移行しています。NVIDIAのCEO、ジェンスン・フアン氏は、AIの次のフェーズは自動運転車とヒューマノイドロボットが主流になると予測しており、テスラなどの大手テクノロジー企業がこの分野で大きな飛躍を遂げているのを目の当たりにしてきました。

ここ数週間、SalesforceのCEO、マーク・ベニオフ氏が、MicrosoftがAI業界に大きな損害を与えたという主張に対し、痛烈な批判を浴びせてきた。「CopilotはMicrosoftのクリッピーの新たな形だ」とベニオフ氏は付け加えた。「機能も価値も提供していない」

SalesforceのCEOは、この機会を利用して、同社が「世界最大のAIサプライヤー」であり、「週に数兆件のAIトランザクション」を処理できる能力を持っていると宣伝しました。ご存知ない方のためにお伝えすると、Microsoftは最近、Copilot Studioがまもなく自律エージェントの作成をサポートすると発表しました。SalesforceのAgentforceと同様に、MicrosoftのCopilotエージェントは、IT、マーケティング、営業、カスタマーサービス、財務など、あらゆる分野のタスクの自動化を支援します。

ベニオフ氏は、マイクロソフトの発表は同社がパニックに陥っている兆候だと捉えた。「コパイロットが失敗に終わったのは、マイクロソフトには真の企業インテリジェンスを構築するためのデータとエンタープライズセキュリティモデルが欠けているからだ」とセールスフォースのCEOは付け加えた。「クリッピー2.0なんてどうだろう?」

さらに興味深いことに、マイクロソフトは今月初めに「Windows Agent Arena」という新しいベンチマークを発表しました。このベンチマークは、Windowsオペレーティングシステム環境におけるAIエージェントのテストを促進することを目的としています。そのため、このベンチマークは、様々なアプリケーションにまたがる複雑なタスクを処理できる高度で洗練された機能を備えたAIアシスタントの開発を促進する可能性があります。

調査によると:

「大規模言語モデルは、コンピュータエージェントとして機能するという驚くべき可能性を示しており、計画と推論を必要とするマルチモーダルタスクにおいて、人間の生産性とソフトウェアのアクセシビリティを向上させます。しかしながら、現実的な環境におけるエージェントのパフォーマンスを測定することは依然として課題です。」

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

Windows Agent Arena とは何ですか? AI 革命においてどのように重要ですか?

上で強調したように、Windows Agent Arena は、Microsoft Edge、Microsoft Paint、Clock、VLC メディア プレーヤーなどのアプリを含む、実際の Windows オペレーティング システム環境で AI エージェントをテストするためのプラットフォームを提供します。

Microsoft によれば:

OSWorldフレームワークを応用し、計画、画面理解、ツール使用といったエージェントの能力を必要とする、代表的なドメインにわたる150以上の多様なWindowsタスクを作成しました。このベンチマークはスケーラブルで、Azure上でシームレスに並列化できるため、わずか20分で完全なベンチマーク評価を行うことができます。

Microsoft Researchは、フレームワークの機能を調査するために、Naviと呼ばれるマルチモーダルエージェントを開発しました。このAIモデルは、Windows Agent Arenaベンチマークで、ウェブサイトをPDFファイルに変換してメイン画面に配置するなど、いくつかのタスクを実行しました。公開されたベンチマーク結果によると、このマルチモーダルエージェントの平均パフォーマンス成功率は19.5%で、人間の平均パフォーマンス評価は74.5%でした。

ベンチマークでは、現時点では AI を使用して特定のタスクを自動化することは困難である可能性があると示されていますが、AI エージェントの改善のための信頼できるプラットフォームを提供しています。

プライバシーとセキュリティは、依然として多くのユーザーにとって懸念事項です。例えば、Microsoftの物議を醸したWindows Recall機能は、多くのWindowsユーザーの間で懸念を引き起こし、規制当局による調査を促しました。このテクノロジー大手は、より安全なエクスペリエンスを実現するための微調整として、物議を醸したこの機能を突然リコールしました。この機能はまもなくリリースされる予定ですが、ユーザーはアンインストール可能です。

同様に、NaviのようなAIエージェントは、より高度化するにつれて、ユーザーの間で懸念を引き起こし続けています。ツールが高度化するにつれて、ユーザーの個人認証情報が保存されているアプリケーションへのアクセスが拡大することになります。特にハッカーがAIなどの高度な攻撃手法を採用し、攻撃の目立ちを悪くしていることを考えると、これは重大な脅威となる可能性があります。

Windows Agent Arenaはオープンソースであり、より多くの研究機会を提供することで、最終的には信頼性と性能に優れたモデルの迅速な開発を促進します。このプラットフォームを開発するMicrosoftの研究者は、セキュリティとパフォーマンスに関する懸念への対応として、Windows Centralに次のように語っています。

「私たちのコンピューター制御エージェント『Navi』はオープンソースであり、研究プロジェクトではGPT-4VなどのOpenAIのモデルとMicrosoftのPhi3を活用しています。Windows Agent ArenaとNaviはどちらもオープンソースですが、使用されている特定のモデルはそれぞれ独立しており、それぞれのプロバイダーによってメンテナンスされています。」

AIシステムの性能と人間レベルの知能の差は、業界全体にとって依然として大きな課題です。私たちは、継続的なデータキュレーション、微調整、最適化を通じてこの課題に取り組み、この差を縮めるべく着実に前進しています。

責任あるAIへの私たちのアプローチは、倫理ガイドラインを最優先とし、プライバシーと安全性を最優先に考えています。AIエージェントが不正アクセスや情報漏洩を回避し、ユーザーがAIの行動を理解し、指示し、あるいは無効化する権限を保持できるようにします。この分野で前進する中で、私たちのコミットメントは揺るぎなく、プライバシーを尊重し、公平性を促進し、社会に積極的に貢献するAIを構築するという揺るぎない決意は変わりません。

一方、アントロピックは最近、「コンピュータ使用」と名付けられた新しいAPIをオープンベータ版で公開しました。このAPIを通じて、開発者は「画面を見る、カーソルを動かす、ボタンをクリックする、テキストを入力するなど、人間と同じようにコンピュータを使用するようクロードに指示を出すことができます」。

🎃ブラックフライデーのお得な早期セール🦃

  • 💻Lenovo Yoga Slim 7x (X Elite) | Best Buy で 999.99 ドル (200 ドルお得!)
  • 📺LG 曲面 OLED 32 (QHD、240Hz) | Amazon で $889.99 (610 ドルお得!)
  • 🎮 Amazon Fire TV Xbox Game Pass バンドル | Amazon で $74.99 ($62 お得!)
  • 💻Alienware m16 R2 (RTX 4060) | Dellで1,399.99ドル(300ドルお得!)
  • 📺 HP Omen 27qs (QHD、240Hz) | Best Buy で 299.99 ドル (130 ドルお得!)
  • 🔊テレビ・モニター用 2.1ch サウンドバー | Walmart で 44.99 ドル(55 ドルお得!)
  • 💻HP OMEN Transcend 14 (RTX 4050) | HP で 1,099.99 ドル (500 ドルお得!)
  • 🎧 Sennheiser Momentum 4 ANC | Amazon で 274.95 ドル(125 ドルお得!)
  • 📺LG C4 OLED 4K TV (42インチ) | Best Buy で 999.99 ドル (400 ドルお得!)

ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。