研究:AIの「近親交配」がChatGPTやMicrosoft Copilotなどのツールのモデル崩壊を引き起こす可能性がある

知っておくべきこと
- ChatGPT や Microsoft Copilot などの AI ツールは、テクノロジー業界全体で大きな話題を呼んでいます。
- 生成 AI システムは、通常、人間のインターネット コンテンツ作成者から盗まれたトレーニング データを使用してモデルをトレーニングします。
- しかし、AI が生成したコンテンツの工業化されたホースがインターネットに溢れるにつれ、研究者たちは AI モデルが自らが吐き出したデータによってどのような影響を受けるのかを懸念しています。
- 現在、ネイチャー誌に掲載された包括的な研究は、AIの「近親交配」に対する懸念は確かに根拠があるかもしれないことを示唆しているようだ。
AIモデル、ヨーロッパの王室、そしてジョージ・R・R・マーティンに共通するものは何でしょうか?それは、近親交配への厄介な執着かもしれません。
AIモデルとツールは現在、テクノロジー業界で大きな注目を集めており、Google、Microsoft、Metaといったあらゆる企業がこの潮流に深く関わっています。大規模言語モデル(LLM)やChatGPT、Microsoft Copilot、Google Geminiといった生成AIツールは、私たちとコンピューティングの関係を根底から覆しつつあります。少なくとも理論上は、そうなるでしょう。
現在、AIツールはサーバー負荷が高く、運用コストも非常に高いため、AI分野のリーディングカンパニーであるOpenAIでさえ、さらなる資金調達ラウンドがなければ破産寸前だと言われています。GoogleやMicrosoftのような巨大テクノロジー企業でさえ、この技術を実際に収益化する方法を見つけ出すのに苦戦しています。なぜなら、一般の人々はまだ、現在提供されているツールの多くに実際にお金を払うことの意味を理解していないからです。AIモデルも実際には既にピークを迎えており、今後ますます愚かになる運命にあるという見方もあります。
「モデル崩壊」とは、主に理論的な概念であり、ウェブ上のコンテンツがAI生成型になるにつれて、高品質な人間が作成したデータがますます不足するにつれて、AIはAI生成の学習データ上で本質的に「近親交配」を始めると予測しています。人口の少ない言語でコンテンツが作成されているため、ローカライズされたデータが不足しているネットの一部では、既にこの現象が発生しています。この現象に関するより包括的な研究がNature誌に掲載されました。
「モデル生成コンテンツを訓練において無差別に使用すると、結果として得られるモデルに不可逆的な欠陥が生じ、元のコンテンツ分布の裾が消失することが判明しました」と概要には記されている。「この現象を『モデル崩壊』と呼び、変分オートエンコーダ(VAE)やガウス混合モデル(GMM)だけでなく、[大規模言語モデル]でも発生する可能性があることを示しました。」
非常に単純化すると、「モデル崩壊」はJPEG圧縮と同様のエントロピー的軌跡を辿ると考えることができます。ミームやJPEGがインターネット上で保存、投稿、保存、そしてまた投稿されるにつれて、データにアーティファクトやエラーが生じ始め、そしてそれが複製されていきます。この論文は、企業がオープンウェブからデータをスクレイピングして機械を学習させるため、オンライン学習データの「無差別な」使用がLLMにも同様の劣化をもたらす可能性があると主張しています。
「我々はこの現象の背後にある理論的な直観を構築し、学習済みの生成モデルすべてにそれが遍在することを示す」と論文は続ける。「ウェブから収集した大規模データを用いた学習のメリットを維持するためには、この現象を真剣に受け止めなければならないことを実証する。実際、インターネットからクロールされたデータの中にLLM生成コンテンツが存在する場合、システムと人間の真の相互作用に関する収集データの価値はますます高まるだろう。」
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
テクノロジー企業は「健全な」AIを気にしない
誇大宣伝と憶測のブルドーザーに支えられた、このいわゆる世代交代的なコンピューティング技術の転換に乗じて利益を得ようとする狂乱ぶりは、ある意味、見ていて恥ずかしいものだった。法学修士課程(LLM)や生成AIは、ブロックチェーンやメタバースといった巨大テックの流行に乗った過去のトレンドよりもはるかに実質的なものであるのは明らかだが、Google、Microsoft、その他の企業は、例年以上に不注意に自らの足元をすくっている。GoogleはAI検索クエリを無謀にも大衆向けに公開し、ユーザーが石を食べたくなるような滑稽な回答をもたらした。MicrosoftのCopilot PCのローンチ時に搭載された「リコール」機能は、AI技術と消費者の関係がどうあるべきかというセンス、機転、そしてビジョンの完全な欠如を露呈した、紛れもない失敗だった。
AIをめぐる熱狂がデータセンターの電力と水道コストの急騰を引き起こし、マイクロソフトとグーグルも気象に関する公約を破棄しました。マイクロソフトはAI倫理に特化したチームも解雇しました。こうした厄介な倫理問題が短期的な利益の妨げになり得ることは周知の事実です。
AIの名の下にこれらの企業が行うあらゆる行動は、貪欲さと無謀な無責任さを露呈している。「モデル崩壊」の警告を真剣に受け止める企業は、一瞬たりとも存在しないだろう。それは将来の会計年度に解決すべき問題だからだ。
関連:マイクロソフトのAI責任者は、ウェブ上のコンテンツは「自由に」盗まれると述べている
マイクロソフトとグーグルは、コンテンツを盗んで検索結果に直接掲載することで、あらゆる規模のコンテンツクリエイターから切実に必要とされている収入を奪おうと、精力的に活動しています。大手企業以外にとってコンテンツ制作が経済的に採算が取れなくなると、ウェブ上の情報の質はさらに低下し、「モデル崩壊」の可能性がさらに高まり、さらに少数の有力者を中心に情報が集中することになります。しかし、もしかしたら、それが目的の一部なのかもしれません。
しかし、MicrosoftとGoogleがこうした事態を真剣に受け止めるとは思えません。また、これらのシステムを動かすために大量に盗まれたコンテンツに対する補償も期待していません。ただ、インターネットの未来はかなり暗いものになるとは思います。
ジェズ・コーデンはWindows Centralのエグゼクティブエディターで、Xboxとゲーム関連のニュースを中心に取り上げています。ジェズは、お茶を飲みながら、Microsoftエコシステムに関する独占ニュースや分析を発信することで知られています。Twitter(X)でフォローして、XB2ポッドキャストもお聴きください。その名の通り、Xboxに関するポッドキャストです!