AnthropicのClaudeへDeepSeek・Moonshotなどがモデルを抽出し不正流用する蒸留攻撃|セキュリティとAIのニュース-セキュリティ対策Lab

投稿日時: 2026年03月04日更新日時: 2026年03月04日

Anthropicは2026年2月23日、Claudeの能力を不正に抽出して自社モデル改善に流用する「蒸留攻撃」が、DeepSeek、Moonshot、MiniMaxの3社により産業規模で行われていたと発表しました。約2万4,000件の不正アカウントを使い、Claudeとのやり取りは累計1,600万回超に達したとしています。

1 何が問題なのか
2 手口
3 3社それぞれの狙い
4 輸出規制との関係
5 Anthropicの対応

何が問題なのか

蒸留自体は、強いモデルの出力を使って小型・低コストのモデルを作る一般的な学習手法で、各社が自社モデルの軽量化に使うことも珍しくありません。

一方で、競合が他社モデルの出力を大規模に収集して近道する形の蒸留は、開発コストと時間を大幅に削る不正な能力獲得になり得ます。Anthropicは、こうして作られたモデルは安全策が失われやすく、危険な能力が保護なしで拡散する点を国家安全保障上のリスクとして強く警告しています。

Anthropicが特に懸念しているのは、蒸留により安全策が弱いモデルが軍・情報・監視に転用されるシナリオです。米国企業が用意している悪用抑止（例：有害行為や攻撃支援の抑制）が維持されないまま能力だけが移植されれば、攻撃的サイバー作戦、偽情報、監視の高度化に直結し得るとしています。さらに、蒸留モデルがオープンソース化されると、国家の管理を超えて危険能力が広範に拡散する、とも述べています。

手口

3社のキャンペーンはいずれも、不正アカウントとプロキシを使って検知回避しつつ、Claudeの差別化能力に狙いを絞った点が共通しています。Anthropicは、通常利用と異なる特徴として、大量・反復・狭い能力領域への集中を挙げています。

アクセス獲得の面では、商用プロキシサービスがClaude等のフロンティアモデルへのアクセスを転売し、膨大な不正アカウント群を束ねるハイドラクラスター型の運用が確認されたとしています。あるケースでは、単一ネットワークが2万以上の不正アカウントを同時管理し、正規利用のトラフィックに混ぜて発見を難しくしたと述べています。

3社それぞれの狙い

DeepSeekは15万回超のやり取り規模で、推論タスクに加え、ルーブリック採点を通じて強化学習の報酬モデルのようにClaudeを使う動きや、政治・検閲に絡む質問を回避する応答づくりなどが観測されたとしています。

Moonshotは約340万回で、エージェント的推論、ツール利用、コーディング、データ分析、コンピュータ利用エージェント開発、画像系など幅広い能力抽出が中心だったと説明されています。

MiniMaxは約1,300万回と最大規模で、同社が新モデルを出すと24時間以内に新モデル側へ収集対象を切り替えるなど、追随の速さも示されたとされています。

輸出規制との関係

Anthropicは、蒸留攻撃が輸出規制の趣旨を骨抜きにする、と主張しています。表面上は短期間で性能が伸びたように見えても、実際には米国モデルから抽出した能力が土台になっている可能性がある、という立て付けです。加えて、蒸留を大規模に回すには高度な計算資源が必要で、結果的に先端チップへのアクセス制限が、直接学習だけでなく不正蒸留の規模抑制にも効く、という論点を示しています。

Anthropicの対応

Anthropicは、防御を検知・共有・アクセス制御・対抗策の4面で強化するとしています。

具体的には、APIトラフィックから蒸留パターンを検出する分類器や行動指紋、チェーンオブソート誘導の検知、大量アカウントの協調動作検知を整備し、他社・クラウド・当局とも技術指標を共有する方針です。また、不正アカウント作成に悪用されやすい経路（教育・研究・スタートアップ等）の審査強化、蒸留の有効性を下げるプロダクト／API／モデル側の対抗策も進めるとしています。