生成AIで安全対策が突破される脆弱性を発見|セキュリティとAIのニュース

投稿日時: 2025年04月28日更新日時: 2025年05月10日

2025年4月25日、複数の主要な生成AIサービスに共通する深刻な脆弱性が発見されたことが公表されました。
この脆弱性は、「Inception(インセプション)」と呼ばれるプロンプト手法、および別の応答誘導型手法により、AIの安全ガードレール（制御機構）を回避できるというものです。

問題の概要

今回発見された脆弱性は、以下の2種類の「システミック・ジェイルブレイク（systemic jailbreak）」です。
David Kuzsmar氏、Jacob Liddle氏によって発見されました。

この手法は、単純なプロンプトのみで効果を発揮し、特定ベンダーに依存しない汎用的な攻撃となっています。

以下の著名な生成AIサービスが、今回の手法によりガードレール突破可能であることが確認されています。

※なお、DeepSeekに関しては現時点で「影響なし」との情報もあります。

これらの脆弱性により、通常では制限されている危険コンテンツが生成されるリスクが生じます。

想定される悪用例

さらに、正規の大規模生成AIプラットフォームをプロキシ的に悪用することで、攻撃者の活動の追跡を難しくすることも可能となります。

参照

https://kb.cert.org/vuls/id/667211