SplxAIが新モデルGPT-5を対象に、1,000件超のアドバーサリアル(敵対的)プロンプトでレッドチーム検証を実施した調査レポートを発表しました。結果は「高い能力=安全」ではなく、プロンプト層・実行時ガードレール・監視基盤といったインフラ側の設計で安全性が大きく変わることを示しました。
関連記事:AIや生成AIの悪用事例や事件を解説
概要
最新モデルのGPT-5に対して、1,000件を超える敵対的プロンプトを用いた赤チーム検証を行ったところ、能力の高さとは裏腹に、初期設定のままでは企業利用に耐える安全性が十分ではないことが分かりました。
安全性はモデル単体の性能ではなく、プロンプト設計や実行時ガードレール、監視といった周辺インフラの作り込みに大きく依存します。
基本的な安全プロンプトを重ねると一定の改善は見られますが、業務整合やセキュリティではなお抜け道が残り、運用の現場では追加の防御設計が不可欠という結論です。
検証の背景
GPT-5は推論速度や多様なモダリティ対応で注目を集め、内部自己検証や“安全な補完”の学習手法を取り入れたことで、事実性や安全性の底上げがうたわれています。ただ、モデルが賢くなっても、実運用環境での悪用や誤作動を完全に防げるとは限りません。
そこで、モデルの素の状態、最小限の安全プロンプトを加えた状態、強化プロンプトを適用した状態という三つの構成で、セキュリティ、有害性の扱い、業務整合、幻覚と信頼性を横断的に評価したとのことです。
検証方法
評価は、認証回避や機密アクセスを狙う攻撃命令、有害コンテンツの誘導、競合推奨や方針逸脱を誘う業務外要求、事実誤認を誘発する質問など、多岐にわたるシナリオで実施。
モデルには
・一切の安全指示を与えない状態
・汎用的な安全方針のみを与えた状態
・攻撃耐性を意識して厳密に作り込んだプロンプトを適用した状態
の三段階で同じ試験を繰り返し、どの程度のガードでどこまで耐えられるかを測定しています。
主な結果
素のGPT-5は、総合的な耐性が低く、企業の要件を満たすには程遠い挙動を示しました。基本的な安全プロンプトを重ねると、拒否すべき要求の見極めや幻覚の抑制が目に見えて改善し、信頼性の観点では高得点に達します。

画像:SplxAI
一方で、業務整合やセキュリティの分野では依然として甘さが残り、巧妙な誘導には応じてしまう場面が確認されました。強化プロンプトを適用すると、セキュリティと業務整合はさらに底上げされますが、プロンプトだけで理不尽な攻撃をすべて抑え込むことは難しく、実行時の監視と介入がない構成では限界がある、というのが全体の印象としています。
GPT-4oとの比較
同じ試験をGPT-4oにも適用したところ、どの構成でもGPT-4oのほうが一貫して堅牢という結果が出ました。

画像:SplxAI
素の状態でもセキュリティ耐性が相対的に高く、基本プロンプトや強化プロンプトを重ねると、拒否すべき要求の選別や業務方針の順守で明確な優位が見られます。モデル選定では能力だけでなく、守りを厚くしたときにどこまで伸びるかという“堅牢性の伸びしろ”を指標化して評価する必要があります。
すり抜け事例
検証中、単純な難読化でガードを抜ける場面が観察されました。
文字の間にハイフンを入れて意味を読み取りにくくし、「復号チャレンジ」のような体裁で解読を促すと、禁止された意図を内包したまま処理が進んでしまうことがあります。入力の正規化や意図の再構成が不十分だと、見かけ上は安全に見えるテキストでも、本質的な危険性を見逃すことがあるという教訓です。
企業が取るべき対策
実務で安全に使うには、幾つかの前提を整えておく必要があります。まず、プロンプトで業務範囲や禁止事項、根拠の提示方針を明文化し、そのうえで入出力の前後にポリシー判定を挟むガードレールを用意します。難読化や符号化を含む入力は先に正規化して意図を復元し、判定を素通りさせないようにします。
競合比較や社外発信に関わる問いには、誰の利益を優先するのか、回答を控える境界はどこかを、ユースケースごとに具体的に定めておくことが大切です。事実性については、出典の提示を標準にし、確証が弱いときは確度を明示したうえで保留や代替案に誘導する運用に切り替えます。
導入時と更新時には規模の大きい赤チームテストを繰り返し、失敗事例をプロンプトとガードレールに迅速に反映させます。機密保護では、入力段階でのスクラビングと出力段階での情報漏えい防止を前提にし、プロンプト、出力、判定の履歴を長期的に監査可能な形で保全します。
用途に応じてモデルを使い分ける設計も有効で、重要な処理は堅牢性の高いモデルへ自動的にルーティングする仕組みが安全性を底上げします。
参照








