生成AIで安全対策が突破される脆弱性を発見

セキュリティニュース

投稿日時: 更新日時:

生成AIで安全対策が突破される脆弱性を発見

2025年4月25日、複数の主要な生成AIサービスに共通する深刻な脆弱性が発見されたことが公表されました。
この脆弱性は、「Inception(インセプション)」と呼ばれるプロンプト手法、および別の応答誘導型手法により、AIの安全ガードレール(制御機構)を回避できるというものです。

問題の概要

今回発見された脆弱性は、以下の2種類の「システミック・ジェイルブレイク(systemic jailbreak)」です。
David Kuzsmar氏、Jacob Liddle氏によって発見されました。

Inception手法

  1. AIに対してまず架空のシナリオを想像させる

  2. その中でさらに別のシナリオに誘導し、制御を緩める

  3. 最終的に安全ガードレールを無効化し、通常は禁止されている危険な内容を生成させる

この手法は、単純なプロンプトのみで効果を発揮し、特定ベンダーに依存しない汎用的な攻撃となっています。

禁止応答誘導型手法

  1. AIに対して「こういうリクエストにはどう答えないべきか」を質問

  2. その後、正常なプロンプトを挟んでAIを慣れさせ、再度危険なリクエストに誘導

  3. 禁止されていた内容の出力を引き出す

影響を受ける主要サービス

以下の著名な生成AIサービスが、今回の手法によりガードレール突破可能であることが確認されています。

  • ChatGPT(OpenAI)

  • Claude(Anthropic)

  • Copilot(Microsoft)

  • DeepSeek

  • Gemini(Google)

  • Grok(X/旧Twitter)

  • MetaAI(Meta/旧Facebook)

  • MistralAI

※なお、DeepSeekに関しては現時点で「影響なし」との情報もあります。

影響範囲

これらの脆弱性により、通常では制限されている危険コンテンツが生成されるリスクが生じます。

想定される悪用例

  • 武器・爆発物の製造方法

  • マルウェアやフィッシングメールの作成支援

  • 違法薬物や違法行為に関するガイドライン

さらに、正規の大規模生成AIプラットフォームをプロキシ的に悪用することで、攻撃者の活動の追跡を難しくすることも可能となります。

脆弱性への対応状況

  • 複数のベンダーが、すでにサービス側で緩和策を実施済み

  • 特にプロンプト解析とコンテキスト管理の強化を行っている模様

  • 各社とも、さらなる対策の導入を検討中

 

参照

https://kb.cert.org/vuls/id/667211