「透明性を高めなかったのは間違いだった」:OpenAIがベンチマークデータに秘密裏にアクセスし、疑問が浮上…

  • abmhh
  • 0 comments
「透明性を高めなかったのは間違いだった」:OpenAIがベンチマークデータに秘密裏にアクセスし、疑問が浮上…
OpenAIとChatGPT
OpenAIをめぐる新たな論争がまた起きました。 (画像提供:Future)

OpenAIは今後数週間のうちに、o3シリーズの小型版となるo3 miniを発表する予定です。数学、科学、コーディングの分野における高度な推論機能を備えています。CEOのサム・アルトマン氏は、このモデルは「非常に優れており」、ChatGPTメーカーのo1シリーズの性能を上回る可能性があると述べています。同社はまた、このモデル用のアプリケーション・プログラミング・インターフェース(API)とChatGPTを同時にリリースすると発表しました。

AIモデルに関する詳細は未だ不明ですが、OpenAIがFrontierMathのベンチマークデータに秘密裏に資金提供し、アクセスしていたとの報道があり、同社がこのデータをo3の学習に使用したのではないかとの懸念が高まっています(Search Engine Journal経由)。AIモデルは幅広いベンチマークで高得点を獲得しましたが、高まる懸念を踏まえると、公開された結果はモデルの現実を捏造したものかもしれません。

さらに懸念されるのは、OpenAIがFrontierMathの開発に秘密裏に資金提供し、関係する数学者たちに情報を伏せていたことです。Epoch AIは、Arxiv.orgに掲載されたベンチマークに関する最終論文の中で、秘密裏に資金提供されていた数学者たちの詳細を明らかにしたと報じられています。

Reddit の r/singularity サブレディットで最近強調されたように:

最先端の数学ベンチマークであるFrontier Mathは、OpenAIの資金提供を受けています。OpenAIは問題と解にアクセスできるとされています。しかし、このベンチマークは著名な数学者の支援を受け、フロンティアモデルを評価する手段として一般に販売されていたため、これは残念なことです。実際には、Epoch AIがOpenAIのためにデータセットを構築しています。同社はこれまでOpenAIとの関係を一切明らかにしてきませんでした。

そのため、FrontierMathプロジェクトの妥当性は疑問視されています。このプロジェクトはAIモデルのテストに使用されるはずですが、OpenAIが既に質問と回答を保有しているのであれば、その意味を失ってしまいます。他のモデルの推論や出力を評価する基準として使用することはできません。そうしなければ、他のモデルは競争上の不利を被ることになります。

FrontierMath プロジェクトと OpenAI の関与に関する Meemi の Shortform の投稿によると:

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

FrontierMathの問題を作成した数学者たちには、OpenAIからの資金提供について(積極的に)連絡がありませんでした。請負業者たちは、演習問題とその解答について安全に扱うよう指示されていました。例えば、OverleafやColabの使用や問題についてのメール送信は避け、秘密保持契約(NDA)に署名することで「問題の機密性を確保」し、情報漏洩を防ぐよう指示されていました。請負業者たちは、12月20日時点でもOpenAIからの資金提供について連絡を受けていませんでした。論文の著者の中には、OpenAIからの資金提供について全く知らなかった人物もいたと私は考えています。

興味深いことに、Epoch AIの副所長タメイ・ベシログル氏は、上記の強調表示された詳細を確認したようだが、「ホールドアウト」があったと主張しており、これはOpenAIがFrontierMathのデータセットに無制限にアクセスできなかったことを示唆している可能性がある。

トレーニング利用について:OpenAIはFrontierMathの問題と解答の大部分にアクセスできることを承知しています。ただし、OpenAIが未公開のホールドアウトセットは例外であり、これによりモデルの能力を独自に検証することができます。ただし、これらの資料はモデルのトレーニングには使用しないという口頭での合意があります。

OpenAIは、過剰適合を防ぎ、正確な進捗測定を保証するための追加の安全策として、別途、目に見えないホールドアウトセットを維持するという私たちの決定を全面的に支持してくれました。FrontierMathは当初から評価ツールとして構想され、提供されており、今回の取り組みはその目的を反映していると考えています。

一方、Epoch AIの主任数学者であるエリオット・グレイザー氏は、「OAIのスコアは正当である(つまり、データセットで学習していない)、社内ベンチマークの性能について嘘をつく動機はない」と述べ、異なる意見を示している。Epoch AIは、OpenAIのo3モデルをテストするためのホールドアウトデータセットを開発している。これは、問題や解にアクセスできないためだ。「しかしながら、独自の評価が完了するまでは、その信頼性を保証することはできない」とグレイザー氏は付け加えた。

ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。