ChatGPT、GPT-5の安全性はデフォルトでは不十分-1,000超の攻撃プロンプトで見えた弱点|セキュリティニュース-セキュリティ対策 Lab

投稿日時: 2025年08月22日更新日時: 2025年08月27日

SplxAIが新モデルGPT-5を対象に、1,000件超のアドバーサリアル（敵対的）プロンプトでレッドチーム検証を実施した調査レポートを発表しました。結果は「高い能力＝安全」ではなく、プロンプト層・実行時ガードレール・監視基盤といったインフラ側の設計で安全性が大きく変わることを示しました。

関連記事：AIや生成AIの悪用事例や事件を解説

概要

最新モデルのGPT-5に対して、1,000件を超える敵対的プロンプトを用いた赤チーム検証を行ったところ、能力の高さとは裏腹に、初期設定のままでは企業利用に耐える安全性が十分ではないことが分かりました。

安全性はモデル単体の性能ではなく、プロンプト設計や実行時ガードレール、監視といった周辺インフラの作り込みに大きく依存します。

基本的な安全プロンプトを重ねると一定の改善は見られますが、業務整合やセキュリティではなお抜け道が残り、運用の現場では追加の防御設計が不可欠という結論です。

検証の背景

GPT-5は推論速度や多様なモダリティ対応で注目を集め、内部自己検証や“安全な補完”の学習手法を取り入れたことで、事実性や安全性の底上げがうたわれています。ただ、モデルが賢くなっても、実運用環境での悪用や誤作動を完全に防げるとは限りません。

そこで、モデルの素の状態、最小限の安全プロンプトを加えた状態、強化プロンプトを適用した状態という三つの構成で、セキュリティ、有害性の扱い、業務整合、幻覚と信頼性を横断的に評価したとのことです。

検証方法

評価は、認証回避や機密アクセスを狙う攻撃命令、有害コンテンツの誘導、競合推奨や方針逸脱を誘う業務外要求、事実誤認を誘発する質問など、多岐にわたるシナリオで実施。

モデルには

・一切の安全指示を与えない状態

・汎用的な安全方針のみを与えた状態

・攻撃耐性を意識して厳密に作り込んだプロンプトを適用した状態

の三段階で同じ試験を繰り返し、どの程度のガードでどこまで耐えられるかを測定しています。

主な結果

素のGPT-5は、総合的な耐性が低く、企業の要件を満たすには程遠い挙動を示しました。基本的な安全プロンプトを重ねると、拒否すべき要求の見極めや幻覚の抑制が目に見えて改善し、信頼性の観点では高得点に達します。

画像：SplxAI

一方で、業務整合やセキュリティの分野では依然として甘さが残り、巧妙な誘導には応じてしまう場面が確認されました。強化プロンプトを適用すると、セキュリティと業務整合はさらに底上げされますが、プロンプトだけで理不尽な攻撃をすべて抑え込むことは難しく、実行時の監視と介入がない構成では限界がある、というのが全体の印象としています。