Appleの研究者は、OpenAIのo3モデルは「思考の錯覚」であり、人間の思考とは矛盾していると主張している…

OpenAIのChatGPTリリースやBing Chat(現Microsoft Copilot)の黎明期から、私たちは長い道のりを歩んできました。OpenAI、Google、AnthropicといったAI業界の主要プレーヤーは、推論モデルを中核に据えつつあるようです。
昨年、これらのトップAIラボは、モデルトレーニング用の高品質なコンテンツの不足により、高度なAIモデルを開発できなくなるだろうという報告書が発表されました。しかし、OpenAIのCEOであるサム・アルトマン氏は、Googleの元CEOであるエリック・シュミット氏がスケーリング則が始まったことを示す証拠はないと述べていることを踏まえ、「壁はない」として、この主張を否定しました。
Appleによる新たな研究論文は、最新のLRM(大規模推論モデル)の推論能力について懸念を表明しているようだ。研究結果によると、LRMは中程度の複雑さのタスクでは標準的なLLM AIモデルよりも優れた性能を発揮する一方で、タスクの複雑さが増すにつれて、どちらも望ましい結果を出すのに苦労することが明らかになった。
研究論文では、特に Anthropic の Claude 3.7 Sonnet Thinking、OpenAI の o3、Google の Gemini、DeepSeek の R1 LRM を取り上げ、標準的な数学やコーディングのベンチマークを超えた幅広いベンチマークでそれらの推論能力を評価し、「ハノイの塔」を含む制御されたパズル環境を設計しています。
研究者たちは、モデルの推論能力を確立し評価することを目指しており、望ましい結果や答えに到達する能力を評価することを目指していませんでした。Appleの研究者による調査結果は以下のとおりです。
これらのモデルは推論ベンチマークで改善されたパフォーマンスを示していますが、その基本的な機能、スケーリング特性、および制限については十分に理解されていないままです。
Appleの研究者たちは、大規模推論モデルを単なる「思考の錯覚」と呼んでいました。この研究では、標準的なLLMとLRMは、単純なクエリに対しては同様の結果と応答を示すことが明らかになりました。しかし、クエリが複雑になるにつれて、LRMが優位に立つ傾向が見られました。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
研究者たちは、LRMの競争優位性は、「思考の連鎖」を促す構造化推論メカニズムにあると結論付けました。興味深いことに、LRMと推論機能を持たない標準的なLLMは、クエリが複雑になりすぎると結果を提供できなくなりました。
さらに興味深いのは、この研究によれば、推論モデルは複雑なクエリを処理するのに長い時間がかかるものの、失敗に近づくにつれて、「十分なトークン予算」があるにもかかわらず、驚くほどプロセスが短縮されたことです。
正しいアルゴリズムが提供されているにもかかわらず、LRM は従来の段階的な推論プロセスで複雑なタスクを処理するのに苦労しているように見え、論理計算における欠陥と矛盾が浮き彫りになりました。
このニュースは、AppleがOpenAIのChatGPTより2年遅れている可能性があるという別の報道に続くものです。MicrosoftのCEO、サティア・ナデラ氏は、ChatGPTの開発元であるAppleには、ChatGPTを誰にも邪魔されることなく構築・開発するための2年間の猶予期間があると主張しました。
AppleはAI競争で引き続き遅れをとっており、Apple Intelligence AI戦略を2026年に延期したことで、多くのユーザーがこれを空想製品であり、iPhone 16の売上を伸ばすための後付けだと非難している。
ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。