2025年1月、ウクライナ発のスタートアップ企業Triplegangersは、自社ECサイトが突如ダウンする事態に見舞われました。当初は分散型サービス拒否(DDoS)攻撃が疑われましたが、原因はOpenAIのクローラーが原因でした。
目次
概要
テッククランチの報道によると同社のサイトがダウンした際にアクセスログを精査した結果、OpenAIのクローラーボット(GPTBot)による大規模なクロールが、サーバーに過剰な負荷を与えていたことが判明しました。
TriplegangersのCEOであるOleksandr Tomchuk氏によれば、同社のサイトには6万5,000点以上の商品ページがあり、
各ページには複数の高解像度画像と詳細なメタデータが含まれています。OpenAIのボットは、数百のIPアドレス(約600IP)を使い分けながら、数万回単位のリクエストを短時間に送信し、結果としてサイトは業務時間中に停止状態へと追い込まれました。
同氏はこの状況を「事実上のDDoS攻撃と変わらない」と表現しています。
Robot.txtは許可制ではなく拒否制
この事例が象徴するのは、AIクローリングを巡る根本的な設計思想の問題です。
OpenAIを含む多くのAI企業は、「robot.txt(Robots Exclusion Protocol)」を遵守するとしていますが、これは事前許可(オプトイン)ではなく、拒否指定(オプトアウト)の仕組みです。
つまり、
-
robot.txtを正しく設定していない
-
GPTBot専用の拒否タグを明示していない
場合、AIクローラーは自由にクロールしてよいと解釈されるのが現状です。
Triplegangersも利用規約で「ボットによる無断取得を禁止」していましたが、それだけでは技術的に何の効力もありませんでした。結果として、robot.txtの設定とCloudflareによるボットブロックを急遽実施するまで、クロールは止まらなかったといいます。
関連:英、XのAI Grokで児童や他人をAIで裸に加工するヌーディフィケーションを調査-日本でもビキニ化が問題に
他社でも相次ぐAIクロール被害と無視されるサイトの拒否設定
TriplegangersのサイトがOpenAIのクローラーにDDoSのように圧迫された事例は象徴的ですが、同様の問題は他のサービス運営者・インフラ企業からも報告されています。AIクロールが引き起こす被害は単独事例に留まらず、サイトの可用性や運用コスト、権利保護などに広く影響を及ぼしています。
Read the Docs:AIクローラーによる帯域幅消費とコスト増加
オープンソース文書ホスティングサービスの Read the Docs は2024年7月、AIクロールの酷使(abuse)について公式ブログで警鐘を鳴らしました。
同社では以下のような問題が発生しています:
-
AIクロラーが同じファイルを繰り返し数百回ダウンロード
-
一部のクロールでは73TB超のデータ転送が発生
-
この結果として数千ドル規模の帯域幅コストが発生し、運営者が負担しなければならない状況に陥った
Read the Docsは、特定のAIボットに対してrobots.txtやボット制御を設定しても、基本的なチェックの欠如やIPレート制限の無視により負荷が続いていると指摘しています。サイトはコミュニティ運営であり予算が限られるため、こうしたアグレッシブなクロールは大きな負担となっていると報告しています。
Perplexityがステルス型のクローリングを実施
世界的なインターネットインフラ企業 Cloudflare は2025年8月、自社ブログで AI検索サービス「Perplexity」 が従来のクロール規則やサイト設定を回避する「ステルスクローリング(stealth crawling)」を行っていると発表しました。
Cloudflareによると
-
Perplexityは、最初は公式User-Agentでクロールを試みるものの、WAF(Web Application Firewall)やrobots.txtでブロックされると、その後に別の 通常のブラウザユーザーを模したUser-Agent(例:Chrome) に切り替え
-
IPアドレスやAS番号を頻繁に変更し、サイト側の拒否設定をすり抜ける
-
明示的にクロール禁止指示を出したテスト用ドメインでも、Perplexityの回答生成にその内容が反映されてしまった
従来の検索エンジンはrobots.txtによる制御が一般的ですが、AIクロールは実装や振る舞いがまちまちで、robots.txtやWAF設定でもすり抜けられてしまう場合があります。
上記のようにステルスクローリングやBot identity spoofing(偽装User-Agent)といった手法は、サイト側の指定を無視する形でアクセスを継続してしまいます。
このためCloudflareは、Perplexityを信頼されたクロール対象リストから除外し、ステルスクローラー検出ルールを強化しました。Cloudflareは、robots.txtだけではAIクロールの制御に限界があると指摘しています。
参照
AI crawlers need to be more respectful
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
How OpenAI’s bot crushed this seven-person company’s website ‘like a DDoS attack’








