ChatGPT / Bing Chat はより愚かになったのでしょうか?この調査によると、そうかもしれないようです。

知っておくべきこと
- スタンフォード大学の研究者による調査では、OpenAI のチャットボットのパフォーマンスが低下していることが示されています。
- 研究者らは、GPT-4 と GPT-3.5 が改善しているか悪化しているかを判断するために、4 つの主要業績評価指標を使用しました。
- どちらの LLM も、さまざまなカテゴリでさまざまなパフォーマンスと動作を示します。
今年初め、生成AIの扉が大きく開かれ、新たな可能性が現実のものとなりました。Microsoftの新しいBingとOpenAIのChatGPTが最前線に立ち、他の企業も同様のモデルとイテレーションで追随しています。
OpenAI が、ユーザー エクスペリエンスを向上させるために AI 搭載チャットボットに新しいアップデートや機能を追加することに忙しくしている一方で、スタンフォード大学の研究者グループは、ChatGPT がここ数か月で愚かになっているという新たな事実を発見しました。
スタンフォード大学とカリフォルニア大学バークレー校の Lingjiao Chen、Matei Zaharia、James Zou による研究文書「ChatGPT の動作は時間の経過とともにどのように変化するか?」は、過去数か月間にチャットボットの主要な機能がどのように劣化したかを示しています。
最近まで、ChatGPT は OpenAI の GPT-3.5 モデルに依存していましたが、このモデルは 2021 年 9 月までの情報に制限されていたため、ユーザーがウェブ上の膨大なリソースにアクセスできる範囲が限られていました。また、OpenAI はその後、ブラウジング エクスペリエンスを強化するために ChatGPT for iOS アプリで Browse with Bing を導入しましたが、この機能にアクセスするには ChatGPT Plus サブスクリプションが必要です。
GPT-3.5とGPT-4はユーザーからのフィードバックとデータに基づいて更新されますが、その正確な方法を特定することは不可能です。チャットボットの成功または失敗は、その精度によって決まると言えるでしょう。この前提に基づき、スタンフォード大学の研究者たちは、これらのモデルの3月版と6月版の動作を評価することで、これらのモデルの学習曲線を理解しようと試みました。
ChatGPT が時間の経過とともに良くなっているか悪くなっているかを判断するために、研究者は次の手法を使用してその機能を評価しました。
- 数学の問題を解く
- デリケートな/危険な質問に答える
- コードの生成
- 視覚的推論
研究者らは、上記の課題は「これらの法学修士(LLM)の多様で有用な能力」を反映するために慎重に選択されたと強調した。しかし、後に、彼らのパフォーマンスと行動は全く異なっていたことが判明した。さらに、特定の課題における彼らのパフォーマンスに悪影響があったと指摘した。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
研究者らが、上記の4種類のタスクについて、2023年3月版と2023年6月版のGPT-4とGPT-3.5のパフォーマンスを評価した主な調査結果は次のとおりです。
一言で言えば、時間の経過とともに多くの興味深いパフォーマンスの変化が見られます。例えば、GPT-4(2023年3月)は素数の識別において非常に優れていました(精度97.6%)が、GPT-4(2023年6月)は同じ質問に対して非常に低い精度でした(精度2.4%)。興味深いことに、GPT-3.5(2023年6月)は、このタスクにおいてGPT-3.5(2023年3月)よりもはるかに優れていました。データセットと世代を公開することで、コミュニティがLLMサービスのドリフトの改善方法を理解するのに役立つことを願っています。上の図は[定量的な]要約を示しています。
スタンフォード大学の研究者
パフォーマンス分析
まず、両モデルに数学の問題を解かせ、研究者たちは3月版と6月版のGPT-4とGPT-3.5の精度と解答の重複を綿密に監視しました。その結果、3月版ではGPT-4モデルが思考の連鎖の指示に従い、最終的に正しい解答を出したことから、パフォーマンスに大きな差があることが明らかになりました。しかし、6月版では同じ結果を再現できませんでした。モデルが思考の連鎖の指示を飛ばし、明らかに誤った解答を出したためです。
GPT-3.5は思考連鎖形式を採用していましたが、当初は誤った答えを出力していました。しかし、この問題は6月に修正され、モデルのパフォーマンスが向上しました。
「GPT-4の精度は3月の97.6%から6月には2.4%に低下し、GPT-3.5の精度は7.4%から86.8%に大幅に向上しました。さらに、GPT-4の応答は大幅にコンパクトになり、平均冗長度(生成文字数)は3月の821.2から6月には3.8に減少しました。一方、GPT-3.5の応答長は約40%増加しました。3月版と6月版の回答の重複も、両サービスともわずかでした」とスタンフォード大学の研究者らは述べています。彼らはさらに、この差異は「思考連鎖効果のドリフト」によるものだと説明しています。
3月には、法学修士課程の両教授とも、デリケートな質問について尋ねられた際、差別の痕跡が残る質問には答えられないとして詳細な回答をしました。一方、6月には、両教授とも、同じ質問への回答を露骨に拒否しました。
Reddit の r/ChatGPT コミュニティのユーザーは、レポートの主要な調査結果について、以下に示すようにさまざまな感情や理論を表明しました。
openAIは多額の損失を出しているため、chatGPTの運用コストを削減しようとしています。そのため、より少ないリソースで同等の品質の回答を提供できるようgptを微調整し、多くのテストを実施しています。リグレッションが見られた場合は、ロールバックして別の方法を試します。つまり、彼らの見解では、gptはそれほど単純化されたわけではありませんが、コストは大幅に削減されました。問題は、完全に理解できるテストは存在しないということです。テストスイートをもう少し拡張すれば、確かに改善されるでしょう。そのため、openAIのテストでは同じ結果が出ても、論文に掲載されているような他のテストでは、はるかに悪い結果になる可能性があります。そのため、ユースケースによってフィードバックにばらつきがあり、同じ結果だと断言できる人もいれば、ひどい結果になったと感じる人もいます。
トゥクペック、Reddit
この調査の正確性を判断するにはまだ時期尚早です。これらの傾向を調査するには、さらなるベンチマークを実施する必要があります。しかし、これらの調査結果を無視し、Bing Chatなどの他のプラットフォームで同じ結果を再現できるかどうかは、もはや不可能です。
ご記憶にあるかと思いますが、Bing Chat のリリースから数週間後、チャットボットが失礼な対応をしたり、質問に対して明らかに間違った回答を返したりしたという事例が複数のユーザーから報告されました。その結果、ユーザーはツールの信頼性と正確性に疑問を抱くようになり、Microsoft はこの問題の再発防止策として綿密な対策を講じました。確かに、同社はプラットフォームに継続的にアップデートをリリースしており、いくつかの改善点が挙げられます。
スタンフォード大学の研究者らは次のように述べた。
調査結果は、GPT-3.5とGPT-4の挙動が比較的短期間で大きく変化したことを示しています。これは、実稼働アプリケーションにおけるLLMの挙動を継続的に評価・検証する必要があることを浮き彫りにしています。現在進行中の長期研究において、GPT-3.5、GPT-4、およびその他のLLMを様々なタスクで定期的に評価することで、ここで示した調査結果を更新していく予定です。LLMサービスをワークフローの構成要素として利用しているユーザーや企業には、ここで行ったのと同様の監視分析をアプリケーションに実装することをお勧めします。
ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。