AI合成音声で有名人を騙る

遠からず起こるだろうと思っていたことが起こった。AIを駆使した画像編集ソフトウェアを使えば、どうみても実写としか思えない静止画を誰でも作れるようになった。動画となるとソフトウェアも違うし、必要とされる技術も違うから、まだ敷居が高いと思っていた。でも、じゃあ音声はと気になっていた。ボイスレコーダで録音した音声ファイルを加工するといっても、他人の声に変換するのは難しいだろうと想像していた。もしかしたらと「声を真似るAI」と入力してググってみて驚いた。加工ソフトウェアがいくつもリリースされていた。
https://www.google.com/search?q=%E5%A3%B0%E3%82%92%E7%9C%9F%E4%BC%BC%E3%82%8B+ai&rlz=1C1QABZ_jaJP876JP876&oq=%E5%A3%B0%E3%82%92%E3%81%BE%E3%81%AD%E3%82%8B&gs_lcrp=EgZjaHJvbWUqCQgBEAAYBBiABDIGCAAQRRg5MgkIARAAGAQYgAQyCAgCEAAYBBgeMgoIAxAAGIAEGKIEMgoIBBAAGIAEGKIEMgoIBRAAGKIEGIkFMgoIBhAAGIAEGKIEMgwIBxAAGAQYBRgPGB7SAQkyMDY5NmowajeoAgiwAgE&sourceid=chrome&ie=UTF-8

一つ例としてあげておく。
「たった3秒の音声さえあればAIがその人の声を作る」
https://stand.fm/episodes/63c02e945934143acaf0a485
「マイクロソフトが新しい技術を発表しました。わずか3秒の音声データさえあれば、その人の声をAIが自動でつくるというのです。声真似芸人さんもびっくりするような……」
有名人の声を真似た電話というと一昔まえの話しに聞こえるが、人による声色(こわいろ)ではなくソフトウェアによって生成される点が大きく違う。

APが八月二十二日付けでバイデンになりすました電話の裁判を伝えてきた。
「Company that sent AI calls mimicking Joe Biden to New Hampshire voters agrees to pay $1 million fine」
https://apnews.com/article/joe-biden-artificial-intelligence-deceptive-phone-calls-33bab2049c12f952eb683a83039ddbba?user_email=885991de1e0bc543407be9533f0f209b031a7c7d8ec7be89dfefe40606c169e2&utm_medium=Afternoon_Wire&utm_source=Sailthru_AP&utm_campaign=AfternoonWire_Aug22_2024&utm_term=Afternoon%20Wire
表題を機械翻訳すると下記になる。
「ニューハンプシャー州の有権者にジョー・バイデンを模倣したAIコールを送信した企業、100万ドルの罰金支払いに合意」
記事の要点は下記の通り。
「ニューハンプシャー州ラコニアの上級裁判所で、有権者弾圧と候補者なりすましの罪状認否の際に着席するスティーブ・クレイマー」
「ジョー・バイデン大統領の声を模倣する人工知能を使い、ニューハンプシャー州の有権者に偽の電話をかけていた企業が、100万ドルの罰金を支払うことで水曜日に合意したと連邦規制当局が発表した」
「ロボコールを送信した音声サービス・プロバイダーのリンゴ・テレコムは、当初200万ドルの罰金を求めていた連邦通信委員会による強制措置を解決するための和解に合意した」

大統領選挙ではトランプが偽写真を使って歌手テイラー・スイフトの支持を得ていると主張していることが問題になっている。ご存知のようにテイラー・スイフトは民主党支持者でトランプの人種差別や人権意識に強く反発してきた。
八月二十日付けのBBC日本語が分かりやすい。
「トランプ前米大統領、米歌手スウィフト氏の支持得たと虚偽投稿 AI生成の偽画像」
https://www.bbc.com/japanese/articles/c9v8r0p4dy4o
記事の概要は下記の通り。
「ドナルド・トランプ米前大統領が、米歌手テイラー・スウィフト氏とそのファンが自分を支持しているように見せる偽の画像を、自分のソーシャルメディア(SNS)「トゥルース・ソーシャル」に投稿したとされている」
「スウィフト氏は、(八月の時点では)2024年の米大統領選挙では支持する候補者を表明していないものの、2020年の前回選挙では民主党を支持し、大統領在任中のトランプ氏を批判していた」
「トランプ候補が拡散した別の写真は、第1次世界大戦中の米兵募集ポスターをまねしたもので、アメリカの象徴『アンクル・サム』の顔をスウィフト氏の顔に置き換え、『テイラーはドナルド・トランプに投票してほしい』と書かれている。
ソフトウェアによる偽画像については、昨年五月にちきゅう座に掲載していただいた拙稿を参照してください。
「写真はつくる時代に」
https://chikyuza.net/archives/127643

八月二十二日付けAPのバイデンなりすまし電話の記事を読んでいて、なんでロボコールで?と不思議でならなかった。ちょっと知識あれば、ChatGPT(か類似の生成型検索エンジン)を使って電話に出た人と丁々発止のやり取りまでできる。トランプのように裏付けのないキャッチフレーズのようなことしか言えない人より、ChatGPTのほうがはるかに整然とした話しで相手を説得できる。いくつもの会話を通してさまざまな事柄にも対応できるようになるし、話も流暢になっていく。いつまでたっても小学生の弁論大会への出場も難しいトランプよりトランプの声に似せた音声の偽物の方が優れているだろう。

日本でインターネットが普及しはじめて、Webコンテンツが充実しだしたのは確か二〇〇〇年頃だった。その程度の仕事をしていたからだろうが、アメリカでの普及から随分遅れていた。当初インターネットの普及を加速したのは普通の社会の需要ではなくエロサイトだった、とサイト管理者の一人から聞いた記憶がある。
似たようなことが生成型検索エンジンにも言えるだろう。たとえば、次のような詐欺の現場での活用が考えられる。
なんとか融資を引きだそうと高級クラブで接待しているところに詐欺師のスマホから受信音がながれた。こんなときにと渋い顔をしながらスマホをだした。表示をみて相手が相手だけにというそぶりをみせて「申し訳ございません。ちょっと」と電話にでる。
「xxxの小林だけど、先週も話した件、そうそうに結論を出してもらわなきゃ、俺の立場わかってんだろう。この間もいったろう、こっちの調整はとっくに済んでるから。……」
詐欺師がペコペコ頭をさげなら、「今、その件でお願いさせていただいているところで……」
「なんだyyyの中村さんと一緒か、なら手っ取り早い。電話変わってもらえるか」
中村は、漏れ聞こえてきたxxxの小林で相手が誰なのか分かっている。社長でもなかなか会ってもらえない監督官庁の長官で、会議の席でなんどか話を聞いたことがある。独特の嗄れ声で横柄で癇に障る喋り方が特徴的だった。
中村の電話は中村の声に似せて作った人工音声でそれをChatGPTでの会話に使っているだけだと気がつくのは事件が発覚してからだった。

こんな詐欺に使うのだったら、独居老人のお話し相手のプログラムを無償提供したらと思う。人気の俳優やタレント……の声に似た音声で日々の会話を楽しめれば孤独感も癒される。毎日定期的に電話がかかって来れば生存確認にもなる。たいした予算がかかるとも思えないのだが、真っ当な使い方はろくでもない世界に広がった後になるだろうから、ロマンス詐欺やエロチャットが先かもしれない。
いうまでもないことだが、いくらもしないうちに音声データは証拠にならなくなってしまうだろう。
2024/8/26
2024/10/7
Private homepage “My commonsense” (http://mycommonsense.ninja-web.net/)にアップした拙稿に加筆、編集

〈記事出典コード〉サイトちきゅう座http://www.chikyuza.net/
〔opinion13906:241009〕