OpenAIの新しい「ディープリサーチ」は、世界で最も難しい「AI試験」で26.6%の精度を記録し、ChatGPT o3-miniとDeepSeekを圧倒したが、順位は上回った。

OpenAIは日曜日、複雑なタスクのためにインターネット上で多段階の調査を実施できるエージェント型AIツール「Deep Research」を発表した。ChatGPTの開発元であるOpenAIによると、このツールは人間のリサーチアナリストをシミュレートでき、エージェントが10分で達成する作業を人間が同等の作業を行うと数時間かかるという。
そして今、このツールは期待に応えているようだ。2週間も経たないうちに公開された、議論の余地はあるものの最も難しいAI試験「Humanity's Last Exam」のベンチマーク結果によると、Deep ResearchはChatGPT03-miniやDeepSeekのR1 V3搭載モデルを大きくリードしている(TechRadar経由)。
ちなみに、このAI試験は世界で最も優秀な専門家によって作成されており、非常に複雑な問題が出題されます。DeepSeekは以前、9.4%の精度で他の独自モデルを大きくリードしていました。
しかし、OpenAIのo3-miniモデルが10.5%の精度でリリースされたことで、中国のAIモデルはトップの座から引きずり下ろされました。設定をo3-mini-highに変更すると、精度は13%まで上昇し、状況は少し面白くなりました。この2つの設定の違いは、後者では複雑なクエリが提示された場合、分析と推論に時間がかかることに起因しています。
一方、OpenAI の新しい Deep Research エージェント AI ツールは、人類最後の試験で 26.6% のスコアを獲得し、結果の精度が 183% 向上しました。
確かに、このツールには豊富な検索機能が搭載されており、複雑なテストに出題される一般知識に関する質問の一部に対する回答をウェブ上で検索することができます。これは、競合する他のモデルに対して競争上の優位性をもたらしています。
OpenAI の従業員は、Deep Research でのユーザー体験を「個人的な AGI の瞬間」と呼び、次のように述べています。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
「ディープリサーチを使うことは、私にとってAGIの瞬間でした。以前は3時間かかっていた正確で徹底的な競合調査と市場調査(情報源付き)が、今では10分で作成できます。」
ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。