
生成AIセキュリティプラットフォームを運営する企業「Lasso 」はGitHubの非公開リポジトリがMicrosoftのAIアシスタント「Copilot」による無断公開されている可能性を発表しました。
問題の概要
2024年8月、Lasso の研究者はOpenAI がプライベート GitHub リポジトリのデータを使用してトレーニングを行い、公開していると主張する LinkedIn の投稿に遭遇しました。
これを受けて同社が調査を開始したところ、対象リポジトリは過去に公開されていたものの、現在は404エラーとなりアクセスできない状態でした。
画像:Lasso
しかし、ChatGPTに質問すると、直接データは提供しないものの、リポジトリの存在自体は認識していることが判明しました。
その理由を追求した結果、Bingが過去のリポジトリ情報をキャッシュしており、それが影響していることが分かりました。
さらに調査を進めると、MicrosoftのCopilotはBingのキャッシュデータを利用し、既に非公開となったリポジトリのデータを引き出せることが判明しました。
このユーザーが非公開または削除済みだと思っているが、まだアクセス可能な「ゾンビデータ」現象により、企業や個人が非公開化したつもりのデータが、実際にはCopilotを通じて依然として利用可能であるという重大なリスクが浮上しました。
Bingのキャッシュ機構とリポジトリの露出
Bingは「cc.bingj.com」というドメインで過去のインデックスデータをキャッシュしており、検索結果の横にある「キャッシュを見る」ボタンから、すでに削除されたページの情報を閲覧できる状態でした。これを利用すれば、GitHubで404エラーとなるリポジトリも、Bingのキャッシュから復元することが可能でした。

Azureresponsible-ai-hub のキャッシュされたページの内容
画像:Lasso
Microsoft Copilotは、このキャッシュデータにアクセスできるため、非公開化されたはずのリポジトリ情報を復元してしまうことが明らかになりました。
調査結果
Lassoは問題の全容を理解しようと「ゾンビ リポジトリ」(かつては公開されていたが現在は非公開になっているリポジトリ) を特定するプロセスを自動化し、調査結果を検証することにしました。
調査の結果、以下のような大規模な情報流出が確認されました。
- 20,580件 のGitHubリポジトリがBingのキャッシュを介して取得可能であった。
- 16,290の組織 (Microsoft、Google、Intel、Huawei、PayPal、IBM、Tencent など)が影響を受けた。
- 100以上のPython/Node.jsの内部パッケージ が「依存関係混乱攻撃(Dependency Confusion)」のリスクに晒されていた。
- 300以上のAPIキー、認証トークン、秘密鍵(GitHub、Hugging Face、GCP、OpenAI など)が流出していた。
この調査結果は、企業がGitHub上で一時的に公開したデータが、非公開化しても完全には消去されず、CopilotなどのAIシステムを通じて引き出される可能性があることを示しています。
Microsoftの対応とその限界
本件の発覚後、Microsoftに対して正式に報告を行いました。Microsoftはこの問題を「低リスク」と判断し、対応としてBingのキャッシュ表示機能を削除し、cc.bingj.comへの一般ユーザーのアクセスを禁止しました。
しかし、キャッシュされたデータ自体は依然としてBingの内部に残されており、Copilotは引き続きこのデータにアクセス可能であることが確認されました。
つまり、表向きの問題は修正されたものの、Copilot経由でのデータ取得は継続されている状態なので、根本的な解決には至っていません。