OpenAI の調査によると、AI モデルが嘘をついたことを罰しても効果はなく、欺瞞的で曖昧な点がさらに強まるだけだという。

幻覚や全くの誤答は、AIの進歩と一般の解釈が直面する大きな課題の一つであり、多くの消費者は依然としてこの技術に全く触れようとしません。GoogleのOverviews AI機能は、接着剤や石を食べることを推奨し、質問に対する奇妙な回答として自殺を提案することさえありました。
セキュリティとプライバシーの懸念の高まりとは別に、OpenAI の研究者は最近、OpenAI 独自の推論モデルなどの高度な AI モデルを制御し、それらがガードレールから外れて制御不能に陥るのを防ぐという困難な課題を描写した興味深い研究を発表しました。
OpenAI の研究者たちは、これらのモデルに対する制御を確立する試みの一環として、有害で欺瞞的な行為に対してモデルを罰するなど、独自の戦略と手法を採用しました。
この研究には、OpenAIの未発表モデルが使用され、不正行為や非正統的な近道を使って簡単に完了できる無数のタスクが実行され、望ましい結果が得られました。
昨年、OpenAI、Anthropic、Google などのトップ AI 企業が、モデルトレーニング用の高品質なコンテンツの不足によりスケーリングの壁にぶつかり、高度なシステムの開発が妨げられていることを示唆するレポートが発表されました。
最近では、AI ラボが推論モデルを開発しつつあるようです。このモデルは従来のモデルとは異なり、クエリへの応答に長い時間がかかり、よく考え抜かれた正確な回答につながることがよくあります。
さらに興味深いのは、推論モデルを使用すると、研究者がモデルの思考の連鎖 (CoT) に簡単にアクセスでき、それが段階的に明確に強調表示されるため、思考プロセスを追跡しやすくなることです。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
モデルのトレーニングは強化学習技術に大きく影響されており、AIツールはプロンプトに従って正確な応答を生成することで報酬を得ます。しかし、この技術には重大な欠点があります。
AI モデルは、多くの場合、報酬ハッキングを引き起こします。これにより、望ましい出力を得るためにいくつかのガイドラインやルールに違反しなければならない場合でも、AI モデルは報酬を得るために操作を行うことができます。
OpenAIの研究者たちは、この研究を通じて、モデルの思考の連鎖を監視して抜け穴を特定し、AIの行動をより深く理解できるようになることを期待していた。
OpenAIの研究者によると:
「特定の基準(命令を回避しないなど)を満たすように CoT を直接最適化すると、短期的なパフォーマンスが向上する可能性があることがわかりました。ただし、望ましくない動作がすべて排除されるわけではなく、モデルの真の意図が不明瞭になる可能性もあります。」
CoT の最適化は大きな可能性を示していましたが、研究者たちは衝撃的な発見に遭遇しました。
AIはペナルティを回避するためにあらゆる手段を講じるつもりだ
OpenAIの研究者たちは、モデルの監視は「脆弱」であることを認めた。さらに、モデルの思考連鎖を厳密に監視すると、ツールが制限を破りながらも報酬を確保するためにミスを隠蔽する可能性があることを指摘した。
AI モデルは痕跡を隠すのが得意であると報告されており、監視側は隠れた欺瞞を簡単に見逃してしまう。
OpenAIのGPT-4oモデルは、未発表のフロンティア推論モデルの学習中に、研究者たちが一連のコーディング演習を完了する様子を観察するために使用されました。興味深いことに、このモデルはいくつかの手抜きをしており、思考連鎖において報酬ハッキングを行っていることを露骨に認めていました。
例えば、モデルは、望ましい出力をより早く得るために、プログラムを途中で終了させることで、割り当てられたコーディングタスクの一部を完全にスキップしました。この衝撃的な発見を受けて、研究者たちはモデルにペナルティを課そうとしました。
モデルの性能が向上したように見えたが、その効果は長くは続かなかった。研究者らは、モデルの思考連鎖に報酬ハッキングと誤った反応の痕跡が残っていることを示唆した。
このモデルは、監視AIから欺瞞行為を隠す方法を編み出したようだ。この問題が継続し、人間の介入が及ばないほど蔓延した場合、世界が人間レベルの知能を持つAIシステムを受け入れる準備ができているかどうかは依然として不透明だ。
CoT プレッシャーでトレーニングされたエージェントは、ハッキングに報酬を与えることを学習します。思考の連鎖の中で意図を隠すことを学習したため、モニターによって不正行為が検出されなくなりました。
OpenAIの研究者
AIの安全性を研究するローマン・ヤンポルスキー氏のp(doom)値によると、AIが人類を滅ぼす確率は99.999999%です。興味深いことに、OpenAIのCEOであるサム・アルトマン氏は、AGIは5年以内に実現し、驚くほど社会への影響は小さく、あっという間に実現すると主張しています。
研究者たちは、曖昧な戦術や欺瞞なしに、思考連鎖を通じて推論モデルの挙動に直接影響を与えることができる将来の手法への期待を表明している。そのために、彼らは高度なAIモデルの思考連鎖に対して、より侵入性の低い最適化手法を推奨している。
ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。