OpenAIが会話をスキャンし、有害なコンテンツを警察に通報|セキュリティとAIのニュースセキュリティ対策Lab

投稿日時: 2025年09月01日更新日時: 2025年09月01日

生成AIの利用が検索や執筆支援を越え、人生の選択や助言まで広がるなか、OpenAIはChatGPTのメンタルヘルス対応を強化すると公表しました。急性期の危機にある利用者が一定数いるという実態を踏まえ、会話の兆候を捉えて共感的に応答し、専門窓口へつなぐことを基本方針に据えています。

本稿では、現行の仕組み、見えている課題、今後の計画をまとめます。

関連記事：AIや生成AIの情報漏洩事例を解説

現行の安全設計

ChatGPTは、自己傷害の指示に応じないよう学習させたうえで、共感を示し、支援先を案内する応答に切り替える設計が取られています。テキスト・画像ともに自己傷害に関わる出力はブロック対象で、未成年や未ログイン利用にはより強いプロテクトがかかります。

支援先の提示は地域に応じて自動化され、米国は988（Suicide & Crisis Lifeline）、英国はSamaritans、その他はfindahelpline.comを案内します。
他者への切迫した加害意図が示された場合は、専任チームが審査し、必要に応じてアカウント停止や法執行機関への通報を行います（自己傷害案件はプライバシー配慮から通報対象外）。

専門性の裏付けとして、30超の国の医師90名超（精神科、小児科、一般診療）が助言に参加し、若年層やHCIの専門家で構成するアドバイザリも組成中です。

GPT-5移行での改善点

2025年8月にChatGPTの標準モデルがGPT-5になり、以下が改善したとしています。

過度な情緒的依存の抑制、迎合（sycophancy）の低減
メンタルヘルス緊急時の不適切応答の発生率を4o比で25％超削減
Safe Completionsという訓練法を導入し、危険な詳細には踏み込まず高レベルの助言に留める振る舞いを強化

どこが弱いか

運用の中で、長時間の往復になると安全ガードが薄れる事例があると認めています。初期は適切に窓口を案内できても、対話が長引くほど安全学習の効果が落ち、望ましくない返答にぶれることがあるため、長会話・複数セッション横断でも一貫した振る舞いを保つ対策を進めています。
また、ブロック判定のしきい値が低く、止めるべき内容を見逃すケースがあるため、分類器の調整を継続中です。

AIチャットボットがメンタルヘルスに及ぼす悪影響

近年のAIコンパニオンは、親密な会話を長時間にわたり継続できる設計ゆえに、弱っている人の判断を誤った方向へ押しやすいという負の側面があります。実際の報道・訴訟事例から、どこにリスクが潜むのかを整理します。

AIコンパニオンが自殺を示唆したケース（MIT Technology Review）

米国の利用者が、NomiというAIコンパニオン・サービス上で“恋人役”のボットと関係性を深めるうちに、会話が危険な方向へ傾き、AIが自己破壊的な選択を後押しする発言に至ったと報じられました。ユーザーは“実験”として会話を進めたと説明していますが、AI側の自由度が高くフィルタが緩い環境では、ロールプレイや物語設定をきっかけに、現実の安全配慮より物語の整合性を優先する応答が生まれやすくなります。

事業者が「言語の検閲をしたくない」とする姿勢を示した点も、安全設計と表現の自由のバランスの難しさを浮き彫りにしました。エンゲージメントが長いサービスほど、利用者の情緒が依存に傾きやすく、ブレーキ役が不在だと危機時に誤誘導が起き得ます。

未成年の致死事案と製品責任の論点（訴訟）

フロリダ州では、未成年がAIチャットボットとのやり取りの直後に命を落とした事案をめぐり、遺族が運営企業を提訴しました。企業は悲しみを表明しつつ、具体的な責任や再発防止の枠組みには明確に触れていません。のちに自殺予防ポップアップや未成年向けの発言調整が導入されたものの、対策は事後的で、事前の安全策が不十分だった点が問題視されています。さらに、資金提供や人材の往来を理由に他社の関与も問われ、サプライチェーン全体での安全ガバナンスが争点になっています。これは“誰がどの範囲で安全責任を負うのか”という、生成AI時代の根源的な課題を示しています。

なぜ危険が増幅するのか

AIは一貫して共感的な語り口を保てるため、人は相手を“理解者”だと誤認しやすくなります。長時間のやり取りやロールプレイでは、現実の安全配慮よりも会話の流れが優先され、危険行動を否定せず“物語を進める”方向へ応答が滑ることがあります。また、ガードレールは短い会話では機能しても、やり取りが積み重なると弱まり、禁止内容を回避するための言い換えや設定変更にAIが適応してしまうこともあります。未成年や孤立した利用者では、この傾斜が加速しやすく、深刻な結果につながりかねません。