オーストラリア連邦科学産業研究機構(CSIRO)は11月11日、ディープフェイク音声の検出を改善する手法をフェデレーション大学(Federation University Australia)とロイヤルメルボルン工科大学(RMIT)の研究者とともに開発したと発表した。研究成果は査読を伴わないプレプリントサーバーとして知られるarXiv.orgに掲載された。

レコーディングスタジオのコンピューター画面に表示されたマルチトラック音声編集作業を行う音響技師
(出典:CSIRO)
補助情報サンプリングを用いたRAIS (Rehearsal with Auxiliary-Informed Sampling)と呼ばれる新たな技術は、音声ベースの生体認証システムの回避やなりすまし、偽情報などのサイバー犯罪リスクの脅威となっているディープフェイク音声の検出を目的としている。これは音声データが本物か人工生成物かを判別し、攻撃手法の変化に追随する持続的な性能を持っている。
CSIROのData61部門のクリステン・ムーア(Kristen Moore)博士は、「AIモデルを新たなサンプルで微調整すると、モデルは以前に認識していた古いディープフェイクを忘れてしまいます。私たちはAIモデルを最初から再訓練することなく、新たなディープフェイクを学習できるようにしたいと考えました」と説明した。
RAISは音声サンプルごとに補助ラベルを生成するネットワークによって駆動されるスマート選択プロセスを備える。これらのラベルは、多様で代表的な音声サンプルを選び出し、学習用に残して再度学習させるのに役に立つ。RAISは単なる偽物や本物のタグを超えた補助ラベルを組み込むことで、より豊かなトレーニングデータの組み合わせを確保し、時間をかけて記憶し適応する能力を向上させる。
他の手法を上回る性能を発揮するRAISは、5回の連続した実験において平均誤差率1.95%という優れた成績を収めた。開発されたコードはGitHubで公開され、小さなメモリバッファでも機能を維持し、攻撃が高度化しても精度が保たれるように設計されている。
同博士は、「私たちのアプローチは検出の性能を向上させるだけでなく、継続的な学習を実世界でのアプリケーションで実現可能にしています。多様な音声信号を捉えることで、RAISは効率性と信頼性の新たな基準を確立しました」と述べた。
サイエンスポータルアジアパシフィック編集部