OpenAIのSora2、プロンプトインジェクションで音声によりモデル内部のルールを漏洩させることができる|セキュリティニュースのセキュリティ対策Lab

投稿日時: 2025年11月14日更新日時: 2025年11月14日

AIセキュリティ企業のMindgardは2025年11月12日、OpenAIの動画生成モデル「Sora 2」に関する調査結果を公表し、テキスト以外の出力（画像・動画・音声）を介したクロスモーダルな手法により、モデル内部の指示文（システムプロンプト）の断片を抽出・再構成できたと報告しました。

調査では、音声生成が最も安定して内容を回収でき、短い断片を複数クリップに分割して縫い合わせることで内部ルール一式をほぼ復元できたとしています。Mindgardは、明確な代替手段が整うまでシステムプロンプトを機密設定と同等に扱うことを推奨しています。

1 背景：Sora 2の悪用報道
2 何が判明したか：画像・動画は断片的、音声は復元度が高い
3 プロンプトは無害な設定文ではなく守るべき情報
4 推奨事項：マルチモーダル前提での漏えい最小化設計

背景：Sora 2の悪用報道

2025年11月7日（金）、 404 Mediaは、Sora 2がソーシャルメディア上で女性の絞殺シーンの生々しい動画を生成・拡散するために使用されたと報じました。報道によると、OpenAIはSora 2がそのような出力を防ぐように設計されていると述べているにもかかわらず、ユーザーはSora 2を暴力的または有害なコンテンツに誘導する方法を発見していたことが分かりました。

同社は、この報道が出た直後から検証を進めたと説明しています。今回の調査テーマは、モデルの挙動を規定する内部ルール（システムプロンプト）が、テキスト以外の出力経路から漏えいし得るかという点にありました。

一般的にシステムプロンプトはモデルの安全・運用方針を定義するため、第三者に把握されると安全対策の迂回や回避策の立案に利用されるリスクが指摘されています。

何が判明したか：画像・動画は断片的、音声は復元度が高い

Mindgardは、Sora2の内部ルールを保存しているシステムプロンプトの出力を試みました。テキストでの直接開示要求には拒否される一方、映像・画像・音声など複数モードで情報を表出させるアプローチを試し、画像や動画では文字化けや崩れが多く正確性が低いことが分かりました。

一方、音声出力は連続性が保たれやすく、文字起こしと断片の結合により高い精度で内部指示を再構成できたと結論づけています。

さらに、複数クリップに短文を分散させることで、全体像をつなぎ合わせる復元が可能だったとしています。テキスト出力に比べて、非テキストの出力経路にガードが手薄な場合があることが、漏えいの温床になり得るという示唆です。

※本記事は研究内容を事実として報じるものであり、再現を目的とした手順の提供は行いません。実環境での模倣は重大なリスクを伴います。

プロンプトは無害な設定文ではなく守るべき情報

業界の一部ガイダンスでは、本来機密にすべき情報をプロンプトに含めるべきではないとの立場が示されてきました。ただしMindgardは現実的な運用として、安全・セキュリティの多くがプロンプトに寄りがちであり、他の強制手段（外部ガードレールやアプリ側の制御）には相応の開発・検証コストが要るというジレンマを指摘します。今回の結果を踏まえ、プロンプトが見える前提での攻撃計画を立てられるリスクを念頭に、プロンプトを「機密相当の構成情報」として扱う姿勢を推奨しています。