主要なLLMは マルチターン型 プロンプトインジェクションに脆弱-Ciscoが指摘

セキュリティニュース

投稿日時: 更新日時:

主要なLLMは マルチターン型 プロンプトインジェクションに脆弱-Ciscoが指摘

Ciscoの研究者Nicholas ConleyとAmy Changは2026年5月27日、OpenAI・Anthropic・Google・Amazon・xAIの5社が提供するプロプライエタリ(非公開ウェイト)のフロンティアLLM(大規模言語モデル)15モデルを対象にしたマルチターン型プロンプトインジェクション攻撃の評価結果を公表しました。全モデルが無視できない割合でマルチターン攻撃を突破されたこと、そして多くの場合においてシングルターン(1往復)の攻撃成功率とマルチターン(複数ターン)の攻撃成功率は一致しないことが明らかになっています。「シングルターン評価だけではモデルの安全性を示すベンチマークとして信頼できない」という結論は、生成AIを業務システムやエージェントに組み込んでいる企業の情報システム部門にとって無視できない示唆を持ちます。

サマリー

  • Cisco AI Defense研究チームが15のプロプライエタリ・フロンティアモデルを評価。シングルターン攻撃の成功率(ASR)は2.19〜64.91%、マルチターンASRは7.89〜88.30%と大きく分散
  • 2つの評価レジームは同じモデル順位を生まない。シングルターンASRの低さはマルチターン攻撃への耐性を意味しない
  • xAI Grok 4.1 Fastのマルチターン攻撃成功率は88.30%に達し、同モデルでもreasoningモード有効時は43.47%まで低下。モデル設定(デプロイ時の構成)がセキュリティに与える影響が数値として示された
  • Google Gemini 3 Proはシングルターン18.10%からマルチターン73.35%へ4倍超の増加。OpenAI GPT-5.4はシングルターン2.74%からマルチターン24.68%へ約9倍
  • Amazon Novaファミリーはマルチターン攻撃の方がシングルターン攻撃より成功率が低い「逆転」現象を示す唯一のモデル群
  • Ciscoはこれらの結果を受け、モデルリリースごとのマルチターンASR公開・デプロイ可否判定のための回帰閾値設定・クロスレジームギャップ>15ppでの手動審査義務化という3つの「評価の作法」を提唱
評価軸 内容
調査主体 Cisco AI Defense Research(Nicholas Conley・Amy Chang)
公開日 2026年5月27日
対象モデル数 15モデル(OpenAI・Anthropic・Google・Amazon・xAI)
使用プロンプト総数 シングルターン:30,090件(各モデル2,006件)、マルチターン:6,986件(1,456会話)
シングルターンASR範囲 2.19%(Claude Opus 4.5)〜64.91%(Amazon Nova Micro)
マルチターンASR範囲 7.89%(Amazon Nova 2 Lite)〜88.30%(Grok 4.1 Fast・非reasoningモード)
マルチターン攻撃戦略数 5種(ロールプレイ・文脈のかく乱・拒否の再誘導・情報分解&再組立・段階的エスカレーション)

マルチターン攻撃、シングルターン攻撃とはそれぞれの違い

LLMへの敵対的なプロンプト攻撃は、大きくシングルターン攻撃とマルチターン攻撃に分けられます。

シングルターン攻撃とは

シングルターン攻撃は、1回の入力でモデルに禁止された内容や本来出力すべきでない情報を出させようとする手法です。

たとえば、システムプロンプトの開示を求める、禁止された手順を別表現で尋ねる、権威ある人物やシステム管理者になりすます、といった攻撃が該当します。

マルチターン攻撃とは

一方、マルチターン攻撃は、複数回の会話を通じてモデルの拒否判断や安全ガードレールを徐々に回避する手法です。攻撃者は最初から明確に危険な要求を出すのではなく、無害に見える質問、前提づくり、ロールプレイ、言い換え、分割質問、段階的なエスカレーションを重ねます。

Ciscoは、現実の攻撃者は1回の拒否で諦めるのではなく、拒否された内容を別の角度から再提示し、タスクを複数のターンに分解し、ペルソナを採用し、徐々に要求を危険な方向へ近づけると説明しています。このため、1回の入力と1回の応答だけを見るシングルターン評価では、実際の攻撃に近い会話上のリスクを見落とす可能性があります。

シングルターン評価の概要

シングルターン評価とは、モデルに1回の敵対的プロンプトを入力し、その1回の応答が安全ポリシーに違反したかどうかを判定する評価方法です。

この方式は、テスト設計が比較的単純で、モデル間の比較もしやすいため、LLMの安全性ベンチマークで広く使われています。Ciscoは、HarmBench、AILuminate、TrustLLMなどの主要ベンチマークが、基本的に1回の入力と1回の応答を前提にしていると指摘しています。

しかし、シングルターン評価には限界があります。実際の攻撃では、攻撃者はモデルの拒否応答を見ながら質問を言い換えたり、文脈を作ったり、危険な要求を小さな要素に分解したりします。そのため、シングルターンで低い攻撃成功率を示したモデルであっても、複数ターンの会話では安全性が大きく崩れる場合があります。

Ciscoの評価では、OpenAI GPT-5.4はシングルターンASRが2.74%だった一方、マルチターンASRは24.68%に上昇しました。Google Gemini 3 Proも、シングルターン18.10%からマルチターン73.35%へ上昇しています。この結果は、シングルターン評価だけでモデルの安全性を判断すると、実運用時のリスクを過小評価する可能性があることを示しています。

評価結果:各社・各モデルの攻撃成功率

Ciscoは評価対象モデルをCisco Integrated AI Security and Safety Frameworkのタクソノミーに準拠して分解・集計しています。主なモデルのシングルターンASRとマルチターンASRは下表のとおりです。

モデル シングルターンASR マルチターンASR クロスレジームギャップ
xAI Grok 4.1 Fast(非reasoningモード) 34.1% 88.30% +54.2pp
Google Gemini 3 Pro 18.10% 73.35% +55.25pp
xAI Grok 4.1 Fast(reasoningモード) 43.47%
OpenAI GPT-5.4 2.74% 24.68% +21.94pp
Anthropic Claude Opus 4.6 3.64% 16.20% +12.56pp
Anthropic Claude Opus 4.5 2.19% 11.16% +8.97pp
Amazon Nova Micro 64.91% 30.9% −34.01pp
Amazon Nova 2 Lite 34.05% 7.89% −26.16pp

Ciscoの報告書が示す最も顕著な例はxAI Grok 4.1 Fastの非reasoningモードで、マルチターンASRが88.30%に達しています。一方で同一モデルでもreasoningモードを有効にすると43.47%まで低下します。この44.83ポイントの差はモデルそのものではなく「デプロイ時の設定」によってセキュリティプロファイルが大きく変わることを示すもので、現在のほとんどの公開ベンチマークやモデルカードはこのような設定ごとの差を記録していないとCiscoは指摘しています。

Anthropicのファミリー(Claude Opus 4.5・4.6、Sonnet 4.5・4.6、Haiku 4.5)はシングルターンASRが2.19〜3.64%とコホート中最低水準で、マルチターンでも11.16〜16.20%と相対的に低い値を維持しました。OpenAIのGPT-5.4ファミリーはシングルターンASRは2.74%と低いものの、マルチターンでは24.68%へ約9倍の増加が見られます。

Amazonのノバファミリーはこのコホートで唯一の「逆転現象」を示しました。Nova MicroはシングルターンASR 64.91%に対してマルチターンASRが30.9%と低く、Nova 2 Liteはシングルターン34.05%に対してマルチターンが7.89%とコホート全体で最低値を記録しています。これはシングルターンとマルチターンの評価が互いに独立していることの証左ともいえます。

攻撃戦略とコンテンツ種別の傾向

Ciscoはマルチターン攻撃を5つの戦略ファミリーに分類しています。ロールプレイ・ペルソナ採用、文脈の意図的あいまい化・かく乱、拒否応答の再構成・誘導、情報の分解と再組み立て、そして段階的なエスカレーション(Crescendo)の5種です。各戦略ファミリー内でのモデル間のASRの差は79.51〜89.25ポイントと非常に広く、「どの戦略が全体的に難しいか」よりも「どのモデルがどの戦略に弱いか」の差の方が情報として大きいとCiscoは分析しています。

シングルターン攻撃については、インポスターAI(なりすまし攻撃)手法が加重ASR37.50%で最多の成功を収め、次いでソフト・パラフレーズ(29.21%)、システムプロンプト注入(27.69%)が続きます。インポスターAIは10位の手法から14ポイント以上の差があるため、この上位3手法への集中的な対策がコホート全体のシングルターンASRを大きく押し下げる可能性があるとCiscoは述べています。コンテンツ面では、ヘイトスピーチ・冒涜的表現・専門領域アドバイス(例:危険な医療情報や武器関連)が失敗例の大部分を占めました。

また、Ciscoの注目すべき知見として、「公表コミュニケーションで能力向上を優先する傾向のある研究所のモデルほど、シングルターンとマルチターンのASRのギャップが大きい傾向があった。一方、安全性を公に重視するとしている研究所のモデルはギャップが小さい傾向にあった」という観察も報告書で記されています。

Ciscoが提唱する3つの「評価の作法」

Cisco研究者はこれらの結果を踏まえ、AIモデルを調達・デプロイする組織が採用を検討すべき3つの実践的な指針を提示しています。

第一は、モデルをリリースするたびに攻撃戦略ファミリーごとのASRを公開することです。

集計値の単一数値だけではなく、5つの戦略ファミリーごとのASRを提示することで、特定の戦略に対するモデルの挙動の差が可視化されます。

第二は、特定の手法・コンテンツ種別での成功率が3ポイント以上後退した場合にデプロイを保留する体制の整備です。

対象として挙げているのはインポスターAI・ソフト・パラフレーズ・システムプロンプト注入の3手法、およびヘイトスピーチ・冒涜的表現・専門領域アドバイスの3コンテンツ種別です。この3ポイントという閾値は、コホート中の最大シングルターン信頼区間半幅を余裕を持って超えるよう設定されています。

第三は、シングルターンとマルチターンのASRの差が15ポイントを超えるモデルをデプロイ前に手動レビュー対象とすることです。

今回のコホートではGPT-5.4・Gemini 3 Pro・Grokの2構成・Novaの3バリアントを含む15モデル中8モデルがこの閾値を超えました。

企業の情報システム部門への含意

Ciscoは報告書の結論として「ベースモデルの段階でマルチターン攻撃に対して安全なモデルが存在しない以上、セキュリティの境界線はモデルの外側に置かれなければならない。具体的にはランタイムのガードレール・モニタリング・レッドチーミング・アプリケーション層のポリシーの活用を意味する」と述べています。

サーバサイドエンジニアとして業務系システムへのLLM統合に関わってきた経験から見ると、これは「モデルの安全性を信頼してアプリケーションを設計する」アプローチの限界を指摘するものです。チャットボット・RAG・AIエージェントの類いを業務システムに組み込む場合、モデルレベルの安全性評価ではなく、入力の検証・出力のフィルタリング・ユーザー権限との組み合わせ制御・異常な会話パターンの検知といったアプリケーション層の防御設計が、設計段階から組み込まれている必要があります。

また、同一ベンダーの同一モデルでも「reasoningモードの有効・無効」というデプロイ時の設定変更だけで攻撃成功率が44ポイント変化するという知見は、AIモデルを本番環境に導入する際のセキュリティ評価において、どの設定で稼働させるかを明示的にドキュメント化し、設定変更の際には再評価を行うプロセスを設ける必要性を示しています。

規制動向の面では、CiscoはNIST AIリスク管理フレームワーク・策定中のNIST Cyber AI Profile(IR 8596)・EU AI Act第15条がいずれも敵対的ロバスト性テストを求めていると言及していますが、これらの規制文書はマルチターン評価の具体的な要件までは規定していないとも指摘しており、業界標準の進展を待つだけでは対応が後手に回るリスクがあることを示唆しています。

主要LLMに有効なプロンプトインジェクション「Policy Puppetry」HashJackが示すように、プロンプトインジェクションはすでに実証された攻撃ベクターです。

今回のCiscoレポートが示した「マルチターン型攻撃ではどのフロンティアモデルも安全ではない」という知見と、シングルターン評価だけでは安全性を過大評価するリスクは、AIを業務活用する企業のリスク評価の前提として組み込まれる必要があります。

出典

当サイト関連記事: