米国モンタナ州ミズーラで在宅勤務中だったKris Sampsonさんのスマートフォンに、娘の名前と写真が表示された着信が入った。電話を取ると、聞こえてきたのは娘が泣いているような声だった。「娘の怖がったときの泣き声だと分かった。交通事故にでも遭ったのかと思った」——しかしその後、電話口に男の声が現れ、怒鳴り声で金を要求し始めた。娘の声はAIが合成したものだった。
2026年5月9日にCNBCが報じたこの事例は、AIボイスクローニングを使った家族緊急詐欺(Family Emergency Scam)の深刻な現状を象徴しています。連邦取引委員会(FTC)によれば、なりすまし詐欺(Imposter Scam)は2025年に約100万件(前年比19%増)・損失35億ドル超に達し、米国で最も多く報告された詐欺類型となっています。
この記事のサマリー
- 2026年5月9日のCNBC報道:米モンタナ州の女性がAI複製音声で「娘が誘拐された」と思い込ませる詐欺の標的に。娘の声・名前・ビデオ通話に表示される写真まで偽装されていました。
- FTCデータ(2025年):なりすまし詐欺は約100万件・損失35億ドル超。ソーシャルメディア詐欺の被害は2020年比8倍の21億ドルに達しました。
- 詐欺の「産業化」:個人犯罪から、アジア・アフリカを拠点とする国際的な組織犯罪ネットワークによる大規模・分業化された詐欺業務へと変容しています。
- OSSツール:VALL-E X(3〜10秒)・Coqui XTTS-v2(6〜10秒)・F5-TTS・RVCなど、日本語対応の無料ツールが公開されており、コード不要・無料で音声複製が可能です。
- 日本リスク:日本語対応のOSSが既に公開済みで、日本の「オレオレ詐欺」にAIボイスクローニングが加わることで、従来の手口の最大の弱点(「声が違う」)が克服されます。
- 対策の核心:「声を信用しない」「家族の合言葉(コードワード)を今すぐ設定する」「必ず別の番号に折り返し確認する」の3点。
関連:ボイスフィッシング(ビッシング)とは?被害事例や対策を解説
目次
リアルな事例「本物との区別がつかない」
「娘の泣き声だと分かった」——モンタナ州の女性の証言(2026年)
モンタナ州ミズーラで在宅勤務中だったKris Sampsonさんは、娘の名前と写真が表示された着信を受けました。電話を取ると、娘が泣いているように聞こえました。「娘の怖がったときの泣き声だと分かった。交通事故にでも遭ったのかと思った」とSampsonさんはCNBCに語っています。
直後に男の声が電話に出て、最初は穏やかに彼女の名前を呼び、娘の母親か確認しました。その後、語気を強め、金を要求し、警察や娘に連絡しないよう脅したといいます。Sampsonさんは以前に同様の「誘拐詐欺」についてニュースで見ていたため、すぐに娘の状態を別の方法で確認し難を逃れました。
ミズーラ警察の広報担当Whitney Bennett警察官は「ここ数年で手口の精巧さが飛躍的に高まっている」と述べています。
先駆けとなった事例——アリゾナ州の母親(2023年)
2023年4月、アリゾナ州のJennifer DeStefanoさんは知らない番号からの着信に、スキー旅行中の15歳の娘Brianaさんが泣き叫ぶ声を聞きました。「完全に娘の声だった」と確信し、続いて現れた男が100万ドル、後に5万ドルの身代金を要求しました。DeStefanoさんは娘の夫に連絡を取り、娘が安全であることを確認して初めて詐欺と気づきました。
DeStefanoさんは後に米上院司法委員会でこの体験を証言。AIボイスクローニングによる誘拐詐欺への警戒を訴えました。
2025年コロラド州の被害——2,000ドルを海外送金
2025年2月、コロラド州の女性Linda Roanさんは、AI生成音声で娘の声を模した偽の誘拐電話を受け、メキシコへ2,000ドルを送金してしまいました。詐欺師は娘の声を使って「身の危険がある」と訴え、犯人の追跡・送金の回収ともに不可能でした。
関連:2025年に発生したボイスフィッシング(ビッシング)の事例と対策
詐欺の産業化
LifeLockのアイデンティティ・プライバシー部門GM、Ian Bednowitz氏はCNBCに対し、詐欺が「産業化(industrialized)」されていると証言しています。今や詐欺は国境を越えた組織的ネットワークによって分業化・大量生産化されており、多くはアジアやアフリカに拠点を持ち、通話・スクリプト(台本)・アウトリーチを専任の「担当者」が処理するビジネスのように運営されています。
注目すべきは、これらの組織の「従業員」の中には、虚偽の求人で誘い込まれ詐欺業務を強制されている被害者自身がいるケースもあるという点です。
Bednowitz氏は2025年9月の米下院金融サービス小委員会での証言で「サイバー犯罪の75%以上が今や詐欺とソーシャルエンジニアリング由来だ」と述べています。
関連:ボイスフィッシング(ビッシング)は産業化している-暗躍するサイバー攻撃 グループ
AIがどのように家族の声を複製するか
ボイスクローニングの仕組み
ボイスクローニングは、特定の人物の短い音声クリップをAIに学習させ、その声で任意のセリフを生成する技術です。かつては大量の音声データと高度な設備が必要でしたが、現在はわずか3〜10秒の音声があれば、無料ツールで本人そっくりの音声が生成できます。
詐欺師が音声素材を入手する手段として最も一般的なのが、YouTube・TikTok・Instagram・Xに投稿された動画・ライブ配信や、ボイスメールのグリーティングメッセージです。特に若い世代は日常的に動画を投稿しているため、音声素材の入手は容易です。
典型的な詐欺の流れ
ターゲット(高齢者が多い)の連絡先・家族関係の下調べを行い、SNSや動画から3〜10秒の音声クリップを取得してボイスクローニングツールで複製します。複製した声で「事故を起こした」「逮捕された」と緊急性を強調する電話をかけ、「弁護士」「警察官」「病院スタッフ」を名乗る共犯者が電信送金・暗号資産・ギフトカードでの送金を要求します。これらはすべて送金後の回収が極めて困難な手段です。
OSSのボイスクローニング技術—脅威はすぐそこに
代表的な無料OSSツール
| モデル | 必要音声長 | 日本語対応 | 公開状態 |
|---|---|---|---|
| VALL-E X(OSS実装) | 3〜10秒 | ○ | GitHub無料公開(MIT License) |
| Coqui XTTS-v2 | 6〜10秒 | ○ | Hugging Face無料公開 |
| VALL-E 2(Microsoft, 2024) | 3秒 | ○ | 論文のみ(コード非公開) |
| F5-TTS | 10秒 | ○ | GitHub無料公開 |
| RVC | リアルタイム変換 | ○ | GitHub無料公開 |
VALL-E / VALL-E X(Microsoft、2023〜2024年)として、Microsoftが2023年1月に発表したゼロショットTTSモデルで、3秒の音声から声のトーン・感情・録音環境(電話越しのノイズも含む)まで再現します。
有志が公開したOSS実装「VALL-E X」は英語・中国語・日本語対応でGitHub公開済みです。2024年の「VALL-E 2」では人間との区別が困難なレベル(ヒューマンパリティ)を達成しました。
Coqui XTTS-v2(OSS、2023年)は、Hugging Face上で最もダウンロードされたTTSモデルで、6〜10秒の音声サンプルから17言語(日本語含む)に対応しています。声の類似度85〜95%・150ms以下のストリーミングレイテンシを実現し、通話中のリアルタイム音声変換にも応用可能な性能です。
RVCはリアルタイム音声変換に特化したOSSで、通話アプリと組み合わせると「通話しながら声をリアルタイムで偽装する」ことが可能です。録音音声を再生する方式より会話の自然さが増します。
OSSの「安全機能の欠如」が悪用を加速させる
商用サービス(ElevenLabs等)には同意確認・ウォーターマーク(透かし)・不審利用の検知などの安全機能があります。しかしOSSツールにはこれらの保護機能が標準で含まれていません。Google ColabやHugging Faceのウェブインターフェース経由ならコード不要・無料で実行でき、GPUなしのCPUモードでも動作するツールが多くあります。米国では2024年2月にFCCがロボコール詐欺へのAI音声複製使用を違法化しましたが、ツール自体の配布停止には至っていません。
なぜ日本でも遅れて悪用されるリスクがあるのか
「オレオレ詐欺」との構造的同一性
日本の「オレオレ詐欺(振り込め詐欺・特殊詐欺)」は1990年代後半から問題化し、年間数百億円規模の被害が続いています。AIボイスクローニングはこの詐欺が抱えていた最大の弱点「声が微妙に違う」「なんとなく別人っぽい」を克服します。本物の孫の声に聞こえる電話がかかってくるようになれば、被害件数・金額ともに急増が予想されます。
日本語対応OSSが既に公開済み
VALL-E X・Coqui XTTS-v2はいずれも日本語に対応しており、日本語音声のクローニング精度も急速に向上しています。TikTok・YouTube等に日常的に動画を投稿する若い世代の音声素材は大量に公開状態にあり、詐欺師が必要とする素材は容易に入手可能です。
海外からの手口移転の実績
2023年にはカナダで25人組の詐欺グループが米国46州の高齢者から2,100万ドル超を騙し取ったとして逮捕されています。Bednowitz氏が指摘するようにこの産業化された詐欺組織は国際的であり、有効な手口が日本市場へ移転するまでの時間は限られています。
対策
最重要:声だけで本人確認しない
どれだけ本物らしく聞こえても、電話の声だけで「家族本人だ」と確信しないことが対策の核心です。電話を一度切り、普段から知っている家族の番号に自分からかけ直してください。「今かけてきた番号」への折り返しは絶対に行わないことが重要です。
家族の合言葉(コードワード)を今すぐ設定する
FTC・FBIが最も有効な予防策として強調しているのが家族だけが知っている合言葉の事前設定です。緊急を装う電話がかかってきたら「合言葉を言ってみて」と要求し、言えなければ詐欺と判断してください。「青いイルカと赤い傘」のようなランダムな組み合わせが推奨されます。
送金方法で詐欺を見分ける
電信送金・暗号資産・ギフトカードでの送金要求は詐欺の強いサインです。これらは送金後の回収が極めて困難な手段です。「今すぐ」「警察に連絡するな」「誰にも話すな」という緊急性・秘密保持の強調も詐欺の特徴です。
OSS検知ツールの活用
AIが生成した音声を検出するツール(Hiya AI Phone等)も登場しています。法人向けには通話の音声をリアルタイムで解析しAI生成音声を検出するサービスの導入も選択肢の一つです。
高齢の家族への事前教育
「AIで声が偽装できること」「電話の声だけでは本人確認できないこと」を高齢の家族・親戚に伝えておいてください。SNSの公開範囲の見直しも有効で、特に声が明瞭に聞こえる動画は悪用されやすいです。
注意点:個人情報の合言葉は対策にならない
前段で合言葉による対策は非常に有効ですが、出身地や職場、人間関係などの個人情報はターゲットのSNSアカウントや公開情報からAIや検索エンジンで調べる事が可能です。その為、合言葉は特定のワードである必要があります。
FAQよくある質問
Q:数秒の音声でボイスクローニングはできますか? A:はい。VALL-E・VALL-E Xは3秒程度から複製可能、Coqui XTTS-v2は6〜10秒が推奨です。SNSや動画に音声が掲載されているだけでリスクがあります。
Q:通話中にリアルタイムで声を偽装することは可能ですか? A:RVCはリアルタイム音声変換に特化しており、通話アプリと組み合わせると通話しながら声を偽装することが技術的に可能です。
Q:警察や病院から「ご家族が」と電話が来たら? A:必ず一度切り、インターネットで検索した公式番号にかけ直して確認してください。「警察官」「弁護士」「病院スタッフ」を名乗ることは詐欺の常套手段です。
Q:合言葉を「答えてくれない」と言われた場合は? A:どんな理由であれ合言葉を言えない場合は詐欺の可能性が非常に高いです。「後でかけ直す」と言って電話を切り、必ず本人確認をしてから判断してください。
参考情報
- AI-powered scam calls are getting more convincing—and more common(CNBC Make It、2026年5月9日)
- Scammers use AI to enhance their family emergency schemes(米FTC、2023年3月20日)
- FBI IC3 2025 Internet Crime Report(2026年4月7日公表)
- FBI IC3 PSA: Criminals Use Generative AI to Facilitate Financial Fraud(2024年12月)
- VALL-E X OSS実装(GitHub: Plachtaa/VALL-E-X)
- Coqui XTTS-v2(Hugging Face)
- FCC: AI Voice Cloning in Robocalls Now Illegal(2024年2月)
- 警察庁:特殊詐欺の認知・検挙状況等について
- 【関連記事】サイバー攻撃とは——定義・種類・対策を専門家が解説【2026年最新】
- 【関連記事】不正アクセスとは——定義・件数・手口・目的・防止策を専門家が解説【2026年最新】
- 【関連記事】2025〜2026年 サイバー攻撃・情報漏洩の最新事例まとめ








