ニュース

生成AIが普及する中、どうやってフェイク画像から身を守るべきか?NIIが最新の研究結果を紹介

 国立情報学研究所(NII)は、2024年3月4日、「フェイクから身を守るには? ―創るAI vs 守るAI」と題した市民講座を、東京・一ツ橋の学術総合センターおよびオンラインで開催した。

最終的には人間が判断する必要があるが、フェイク画像検出技術も躍進

 講師を務めたNII 情報社会相関研究系の越前功教授は、「画像が本物であるか、偽物であるかを、100%断定することは難しいのが実態である。また、本物を偽物と判断することもある。最終的には人が判断しなくてはならない。そのために科学的に情報を提供できる研究を進めている」と説明する。

国立情報学研究所 情報社会相関研究系 越前功教授

 一方、「偽情報や誤情報を拡散させないためには、AIを活用した自動検知や自動ファクトチェックが必須技術になるだろう。その際には、透明性を確保することが求められるが、AIの学習データやベンチマークを公開すると、それを逆手にとって、自動検知を迂回する偽情報の生成手法が出現するという危険性もある」と発言。

 さらに、「今後は、多種多様な偽情報、誤情報の生成手法が出現するだろう。防御側は定期的なデータセット更新や自動検知モデルの追加学習が必要になるが、研究レベルのものが多く、現実の環境を反映してないものが多いこと、信頼できる情報源の収集方法を確立する課題やコスト負荷が大きいという課題がある」などと懸念を示した。

 市民講座は、NIIの研究者が講師となり、同研究所が取り組んでいる「情報学」の研究成果や最先端の動向などを、一般に向けて解説するもので、2023年度は6回のプログラムを用意。今回は4回目の開催となり、話題のフェイクメディアをテーマにした。

 生成AIの登場によって、多くの人が、本物そっくりの顔や音声を自動的に作ることができるようになる一方、この技術を悪用して、なりすましや世論操作を行なう目的で、フェイク画像やフェイク音声を活用する事例が発生。世界的に深刻な社会問題となっている。

リアルなのかフェイクなのか区別がつかない画像

 講師を務めた越前教授は、フェイクメディアに立ち向かう技術研究の第一人者として知られ、シンセティックメディア国際研究センター長も務める。フェイクメディア対策技術として、フェイク顔映像検出AIaaSである「SYNTHETIQ VISION(シンセティックビジョン)」を開発。サイバーエージェントがタレントなどの有名人のフェイク画像検出に利用したり、国内企業がeKYCのなりすまし対策に活用したりといった実績がある。

フェイク画像の被害事例

 講座の最初に、フェイクメディアのこれまでの経緯と、現在の状況について説明した。

 越前教授は、「2018年から、顔や音声、身体、自然言語など、ネット空間に大量に存在する人間由来の情報を、コストをかけずにAIが学習する環境が整ったことで、本物と見紛うフェイクメディアの生成が可能になっている。海外では、2019年にはフェイクニュースに特化したモデルが登場し、フェイクの音声を作り出し、企業の幹部や、架空の人物になりすまして、現金を搾取したり、株価を操作したりといった事例も出ている」と紹介。

 2020年には、表情転写技術を用いて、イーロン・マスク氏の1枚の顔画像を使い、リアルタイムに表情が変わるようにして、Zoomの会議に参加。出席者を驚かせるといったケースがあったことも紹介した。また、2022年には、ウクライナのゼレンスキー大統領のフェイク動画が拡散された事例は多くの人の記憶に新しいところだろう。

 2021年には、娘のライバルを蹴落とすために、母親がライバルのフェイク映像を作成し、配信したとして逮捕に至った事例も発生しており、「誰でもフェイクメディアの生成が可能になる時代が訪れている」と述べた。

 日本においても、2021年には内閣官房長官の記者会見の画像が改ざんされたり、2023年には岸田首相の偽画像などがSNSで拡散されたりといった事例があり、「日本でも生成AIによる脅威が深刻化している」と指摘した。

国内でもフェイク画像が問題視されてきている

 最近では、Stable Diffusionなどを利用した拡散モデルによる偽情報、誤情報の広がりが課題になっているという。日本でも2022年に静岡で水害が発生したような画像をAIで生成し、それをフェイク情報としてSNSで拡散された例を挙げたほか、昨今では、LoRAによるファインチューニングによって、フェイク画像が拡散されることが問題になっていることを指摘した。

 たとえば、LoRAでは、特定の人物やキャラクターの画像を数10枚集めて、Stable Diffusionに追加学習させると、効率良くチューニングし、対象人物のモデルを生成。これをWebサイトで公開し、簡単に特定人物を使用したフェイク画像が作れてしまうという。実際に、「ゼレンスキーモデル」と呼ばれるものが存在し、誰でも簡単に、ゼレンスキー大統領の画像を使ったフェイク画像が作れるという。

フェイクメディアの問題
ゼレンスキー大統領のフェイク動画

 「拡散モデルは脅威になりつつある。静止画であれば、プロンプト1つで、特定の人物およびキャラクターに関する写実性が高いフェイク画像ができる」と懸念を示した。

フェイクなビデオはどうやって作られているのか?

 OpenAIが発表したSoraも、拡散モデルの流れにおいて、注目されるものだという。

プロンプトから動画を生成するSora

 「Soraは、プロンプトを入力するだけで、1分程度の映像を簡単に作ってしまう。しかも、カメラワークもダイナミックである。だが、これが悪用されることも考えられる。特定の人物を描くことができるプロンプトが用意されると、簡単にフェイク映像が作れる。今年は、世界的に選挙イヤーを迎えているが、特定の候補者に関する写実性の高いフェイク映像がテキストから生成できてしまい、これが拡散される可能性がある」などと述べた。

 従来のフェイク画像は、サンプル画像から顔の部分を置き換えるというものだったが、今後は、拡散モデルを利用して、プロンプトから画像を作ることができ、しかも、それが映像レベルで実現できるようになる。越前教授は、「画像よりも映像の方が思考誘導しやすく、フェイクメディアの影響が大きくなる」と指摘し、悪用された際の影響力が大きくなる可能性について警鐘を鳴らした。

 顔を対象にしたフェイクメディアの生成には5つのタイプがあるという。

フェイクメディアの生成のタイプ

 1つ目は、「顔全体の合成」である。StyleGANやVQ-VAEなどを利用して、実世界にない顔画像を生成したり、Stable Diffusionなどを利用して、プロンプトにテキストを入力するだけで、目的とする人物の写実性の高い画像を生成するといったものだ。

 2つ目は、「顔の属性操作」。ターゲットとなる人物の顔画像の髪の色、肌の色、表情などを変更して、顔画像を生成するというものだ。実際の画像をもとにして、自然なスタイル変換をすることで、新たな画像を生成することができる。性別や年齢などの観点から顔を変更させることも可能だ。2018年には存在していた技術だという。

顔全体の合成と顔の属性操作

 3つ目は、「顔映像・顔画像の表情操作」である。表情転写ともいう。攻撃者の表情に、ターゲットとなる人物の顔画像を合成し、表情と同期した形で顔映像を生成するものである。Face2Faceなどのリアルなフェイク映像を生成する技術が活用されており、いまでは、静止画を使うだけで、画像として表情を動かすことができるようになっている。これが悪用されると、ネット銀行などの契約時に使用するeKYCでのなりすましに使われる可能性があると指摘した。

顔映像・顔画像の表情操作

 4つ目が、「顔映像の話し方操作」である。音声またはテキスト情報と、ターゲットの画像や映像を合成し、それを同期(リップシンク)させることで、しゃべっているような顔映像を表示するというものだ。Synthesizing Obamaと呼ばれるオバマ元米大統領のフェイクメディアが有名だ。

顔映像の話し方操作

 そして最後が「顔の総入れ替え」である。ソースとなる映像の顔部分をターゲットの顔を入れ替える。ここでは、Faceswapなどのアプリが用いられている。現在、代表的といえるフェイクメディアの手法となっている。

顔の総入れ替え

「守るAI」の進化

 こうしたフェイクメディアの動きに対して、越前教授は、「守るAI」の開発に挑んでいる。その第一歩となったのが、2018年12月に論文発表したMesoNetである。フェイク顔映像を検出するコンパクトなディープラーニングモデルであり、AIを活用して、フェイク映像の真贋判定を行なうことを提案。当時は、顔の置き換えや、顔映像・顔画像の表情操作といったフェイクメディアについては、95%以上の精度で真贋判定を行なえたという。

MesoNet

 さらに、2019年には、Capsule Networkを用いたフェイク顔映像の検出手法を発表。カプセル単位で、複数の観点から真贋判定を行なうため、未知のAIで作られたフェイク映像にも対応できるという。実験では、エラー率が1.42%と低い成果が得られている。

Capsule Networkを用いたフェイク顔映像検出

 続けて、フェイク画像の判別と改ざん領域の推定を同時に行なう手法を、同じく2019年に発表。真贋判定をするだけでなく、どこが改ざんされているのかを明確にし、理由を説明できるようにした。「この頃から、フェイク技術によって改ざんされる場所が異なるといったことが分かってきた。これをヒントに、どの技術によって作られたフェイク画像であるかを特定できるようになった」という。

 最近の成果としては、CREST FakeMediaの取り組みについて説明した。

CREST FakeMediaの概要

 これは、2020年12月から2026年3月までを研究期間として取り組んでいるものであり、社会に恐怖や混乱、不確かな情報の氾濫を指す「インフォデミック」を引き起こすことや、事実ではない特定の情報を繰り返して視聴させることによって思考誘導や世論操作する動きに対して、適切に対処すると同時に、多様なコミュニケーションと意思決定を支援するソーシャル情報基盤技術を確立することを目的にした活動となる。

 本物に限りなく近いが本物ではない「メディアクローン型フェイクメディア」、世論操作のためにメディアを意図的に加工する「プロバガンダ型フェイクメディア」、AIを誤動作、誤判定させる「敵対的サンプル型フェイクメディア」に対して、検出する技術を確立することになるという。

 具体的には、フェイクメディアの種別などを説明可能な形式で情報提供する「高度なフェイクメディア検出技術」、施行誘導や誤動作、誤判定が生じないように無毒化する「フェイクメディア無毒化技術」、情報の信頼性を高める社会システムの原理と技術を確立する「意思決定支援技術」などに取り組むとしている。

 また、越前教授が取り組んでいる最新技術についても説明した。

 Master Faceと呼ぶ技術は、ホテルのすべての部屋の鍵を開けられるマスターキーと同様に、顔識別システムに登録された複数の顔特徴と類似する「マスター顔(Master Face)」を生成。これを用いることで、顔認証システムを危険にさらす可能性があることや、Master Faceの概念を一般化できることを示した。

Master Face

 つまり、攻撃側の視点に立った研究であり、これによって、顔認証システムを使用する際に、一致しやすいフェイク画像が作れる危険性を指摘した。具体的には、StyleGANを用いて、潜在変数進化と呼ばれるプロセスによって、高品質なMaster faceを生成。これを利用することで、攻撃が可能なことを実証する一方で、「私たちの真贋判定技術を用いることで、Master Faceをはじくことができる」とも述べた。

 Cyber Vaccineという技術は、オリジナルの画像に「ワクチン」を接種することで、ディープフェイク攻撃を受けて、顔が書き替えられても、オリジナルの画像に復元できるというものだ。画像上の顔の周辺部分にオリジナルの顔に関する情報を埋め込み、復元時にこのモデルを参照することで、元の画像に戻すことができる。

Cyber Vaccine

 また、この技術を活用して、オリジナル画像の中に人工的なノイズを入れることで、オリジナル写真から人物画像の切り抜きができなくなる「ワクチン」も開発しているという。

 さらに、フェイクメディア検出の性能向上を目指して、高品質な大規模データセットの構築にも取り組んでいるという。

 一方、「SYNTHETIQ VISION」の社会実装についても触れた。

SYNTHETIQ VISIONの概要

 「SYNTHETIQ VISIONは、アップされた映像が、フェイクであることをすぐに判断できる技術であり、判定対象となる映像のアップロードから、判定結果を示した映像をダウンロードするまでのすべてのプロセスをAPIとして利用可能となっている。AIを活用したAIaaSを容易に実現できる。2021年9月に発表以降、多くの企業から問い合わせがあり、複数の企業にライセンス提供している。パートナー企業と連携した社会実装も進めている。だが、不用意にライセンス提供すると、技術を悪用される恐れがあるため、慎重に社会実装を進めている。個人への提供は行なわない」と述べた。

 SYNTHETIQ VISIONの活用によって、今後、想定されるユースケースとして、エンターテイメント業界においては真贋判定によるフェイクメディアの削除、報道機関では報道前の写真の真贋判定による誤報の防止、ソーシャルメディアでは確信度の提示による誤情報の拡散防止、法執行機関では誤った証拠の使用防止、ビデオコミュニケーションではオンライン面接やオンライン試験での不正防止などに活用できるとした。