3秒の音声で「あなた」が完コピされる — インドで猛威を振るうAIボイスクローン詐欺

画像: Phobolytics

ある日、あなたのスマホに母親から電話がかかってくる。

「大変なの、事故に遭って……すぐにお金を振り込んで」

声は間違いなく母親のもの。話し方のクセ、語尾の上げ方、あの独特の間。疑う余地はない。

——ただし、その声はAIが3秒のサンプルから生成した偽物だ。

インド成人の47%が「被害者圏内」

McAfeeの調査によると、インド成人の47%がAI音声詐欺の被害に遭ったか、身近に被害者がいると回答した。世界平均は25%。インドはその約2倍だ。

ハリヤナ州サイバーセルの報告では、2025年第4四半期だけでボイスクローン詐欺の通報が2,300件を超えた。前年比450%の増加。2026年に入ってもペースは衰えていない。

この異常な数字の背景には、インド特有の事情がある。

第一に、スマートフォンの爆発的普及。インドのスマホユーザーは7億人を超え、その多くがSNSで音声コンテンツを発信している。Instagramのリール動画、WhatsAppのボイスメッセージ、YouTubeのショート動画——いずれも「声のサンプル」の宝庫だ。

第二に、家族間の送金文化。インドでは家族からの電話で「すぐにお金を送って」と言われれば、疑わずに送金する人が多い。UPI（統合決済インターフェース）の普及で、スマホから数秒で送金が完了してしまう。声を信じて、振り込んで、気づいたときには手遅れ。

第三に、デジタルリテラシーの格差。都市部のIT人材なら警戒するかもしれない。だが、地方の高齢者にとって「AIが声を偽造する」という概念自体が想像の範囲外にある。

最も衝撃的な事例は、ムンバイで発生した企業詐欺だ。

ある企業のCFO（最高財務責任者）に、CEOから電話がかかってきた。「至急、2.3億ルピー（約4億円）を指定口座に送金してくれ。理由は後で説明する」。

CFOはCEOの声を疑わなかった。すぐに送金を実行した。

ところが当のCEOは、その時間、別のミーティングに出席していた。電話をかけたのはAIだった。

公開されている会議の録音やプレゼン動画から、CEOの声のサンプルは簡単に入手できる。企業の経営幹部ほど、声のサンプルがネット上に転がっている皮肉な構造がここにある。

技術的なハードルは、恐ろしいほど低い。

2026年現在、AIボイスクローンに必要な音声サンプルはわずか3秒。Instagramに投稿したリール動画の冒頭部分で十分だ。クローン精度は95%を超えるとされ、家族ですら電話越しに見分けがつかないレベルに達している。

しかも、こうしたツールの多くはオープンソースで公開されている。特別なハッキング技術は不要。高校生でも使える。

ディープフェイク詐欺の試行件数は過去3年で2,137%増加し、検知された不正の約15件に1件がディープフェイク関連だという。犯罪のコストが劇的に下がった結果、被害は爆発的に広がっている。

音声だけではない。インドの著名慈善家スドゥハ・ムルティの顔を使ったディープフェイク投資広告がSNS上に出回る事件も起きている。「ムルティ氏推薦の投資案件」という触れ込みで、偽の投資サイトに誘導する手口だ。

声と顔、両方を偽装できるようになった今、従来の「怪しいメールに注意」レベルの啓発では追いつかない。本人にしか見えず、本人にしか聞こえないコンテンツが、AIによって無限に生成される時代。

インドのサイバーセキュリティ専門家たちは、原始的だが有効な対策を提案している。家族間で「合言葉」を決めておくこと。電話でお金の話が出たら、まず合言葉を確認する。

テクノロジーの最前線で起きている犯罪の対策が「合言葉」というのは、どこか滑稽に聞こえるかもしれない。だが、AIが声も顔も偽装できる時代に、人間同士の信頼を担保する手段は意外とアナログなところに残っている。

インドで起きていることは、アジア全体の未来でもある。日本でも、SNSに声を上げる人が増えるほど、ボイスクローン詐欺のリスクは高まる。「3秒の音声」が持つ価値を、いま一度考え直す必要がある。