Cloudflare が「robots.txt」を更新 — これは Web の将来にとって何を意味するのでしょうか?

robots.txt は、すべてのウェブサイトに配置されている小さなテキストファイルです。検索エンジンやボットに対し、閲覧が許可されているものと許可されていないものを指示するものであり、デジタル版の「立ち入り禁止」標識のような役割を果たします。インターネットの黎明期には、この方法は効果的でした。
GoogleやBingなどの検索エンジンはルールに従い、ほとんどのウェブサイト運営者はそのバランスに満足していました。しかし、AIの台頭により状況は一変しました。AIボットは従来の意味でのウェブサイトのインデックス作成ではなく、チャットボットの学習や回答生成のためにコンテンツをコピーするのです。
多くのAI企業はrobots.txtを完全に無視するか、クローラーを偽装して制限を回避しています。Cloudflareはインターネットの約20%を保護しており、これらのAIボットの大規模な挙動を独自の視点で把握しています。そのため、Cloudflareはコンテンツシグナルポリシーを導入しました。これは、パブリッシャーが自社のコンテンツをAIトレーニングに使用してもよいかどうかを判断できる新しい方法です。
Cloudflareのコンテンツシグナルポリシーは実際には何を行うのか
digidayの報道によると、この新しいポリシーはrobots.txtをベースに、ボットが従うべき追加の指示を追加することで構築されています。クロール可能なページを指定するだけでなく、パブリッシャーがコンテンツへのアクセス後にコンテンツをどのように利用するかについてのルールを設定できるようになります。
選択できる新しい「シグナル」は 3 つあります。
- 検索– コンテンツを使用して検索インデックスを構築し、結果にリンクやスニペットを表示できるようにします。
- ai-input – チャットボットがページから情報を取得して応答を生成する場合など、AI 回答でコンテンツを直接使用することをカバーします。
- ai-train – コンテンツを使用して AI モデルをトレーニングまたは微調整できるかどうかを制御します。
これらのシグナルは、単純な「はい」または「いいえ」の値を使用します。例えば、サイトはコンテンツを検索結果に表示することを許可しながら、AIトレーニングからはブロックすることができます。
Cloudflareはすでに380万以上のドメインにこれを展開しています。デフォルトでは、searchは「はい」、ai-trainは「いいえ」に設定され、ai-inputはサイト所有者が変更するまで中立のままです。
なぜ施行が依然として重要なのか — そしてGoogleの役割
このアップデートは歓迎すべきステップですが、一部のボットは依然として新しいシグナルを無視します。ウェブサイト運営者は、サイトとインターネット間のトラフィックをフィルタリング・監視するウェブアプリケーションファイアウォールなどの追加保護機能と組み合わせる必要があります。
ボット管理も重要です。これは機械学習を用いて、悪意のある自動トラフィックを検知・ブロックしながら、実際のユーザーを通過させることを可能にします。
たとえ一部のAIボットがこれらのルールを無視したとしても、このポリシーはパブリッシャーの法的立場を強化します。Cloudflareはコンテンツシグナルを「権利留保」と位置付けており、これは将来AI企業に対する訴訟で利用される可能性があります。
AI企業がこれらのシグナルを尊重することを決断すれば、ウェブの新たな基準が確立される可能性があります。そうでなければ、より厳格なブロッキングやより積極的な法的措置が取られる可能性が高くなります。これは、自社コンテンツへのAI利用に反対する多くの人々にとって歓迎すべきこととなるでしょう。
もう一つの問題点として、Googleがクローラーをどのように扱うかが挙げられます。Googlebotは検索とAIオーバービューの両方をカバーするようにバンドルされているため、パブリッシャーは検索の可視性を失うことなくAI機能をオプトアウトすることはできません。
これは不公平なトレードオフを生み出します。GoogleがAIのためにコンテンツを使用することを許可するか、貴重なトラフィックを失うリスクを負うかのどちらかです。オーディエンスへのリーチをGoogle検索に依存している小規模パブリッシャーは、この点で最も大きな打撃を受けます。
AIスクレイピングと収益化の未来
Cloudflareが、現在オンラインで公開されているあらゆる情報をスクレイピングするAIボットの波からドメインを保護するための対策を講じているのは喜ばしいことです。ChatGPTでさえ、学習できるものは何でも学習しているようです。同社の最新動画モデル「Sora 2」は、『サイバーパンク2077』のミッションを完全に再現できますが、そのコンテンツの使用許可が与えられたとは信じがたいほどです。
マリオやピカチュウが登場する動画も同様です。任天堂がこうした利用を無視するとは考えにくいですが、これまでの経緯を考えると、大手AI企業ではなく、小規模なファンプロジェクトをターゲットにする可能性は低いでしょう。
Cloudflareは「ペイパークロール」機能もテストしています。これにより、ドメイン所有者はAIクローラーがサイトにアクセスするたびに料金を請求できるようになります。クローラーが支払い情報を提供しない場合は、「402 Payment Required」エラーが発生します。
Google ニュースで Windows Central をフォローすると、最新のニュース、洞察、特集がフィードの一番上に表示されます。
アダムは心理学の修士課程を修了し、ゲーム、コミュニティ構築、デジタルエンゲージメントに情熱を注いでいます。2001年からXboxファンであり、Halo: Combat Evolvedからプレイを始め、今もなお熱心な実績獲得者です。長年にわたり、複数のDiscordコミュニティに参加し、コミュニティの発展と成長を支援してきました。アダムにとって、ゲームは単なる趣味以上の存在です。多くの友人と出会い、新たな挑戦に挑戦し、情熱を共有するコミュニティと繋がる場となっています。