2025年09月
トップ  > ASEAN科学技術ニュース> 2025年09月

自然な文章を用いたAIバックドア攻撃と防御手法を開発 シンガポール

シンガポールの南洋理工大学(NTU)は8月27日、人工知能(AI)モデルに自然な文章を用いて誤答を引き起こす新たなバックドア攻撃手法「ProAttack」を開発したと発表した。研究成果は学術誌Expert Systems with Applicationsに掲載された。

(出典:NTU)

バックドア攻撃とは、攻撃者が学習データに不正な要素を仕込み、AIモデルに特定条件下で誤動作をさせる手法である。これまでの例では「mn」や「tq」といった意味不明な文字列をトリガーとして用い、放射線診断レポートの要約で本来必要な治療を「不要」と誤って判断させるケースが知られていた。しかしこのような特殊な記号や単語は比較的容易に検知できるため、防御策を講じやすかった。

NTUコンピューティング・データサイエンス学部のルー・アン・トゥアン(Luu Anh Tuan)助教授率いる研究チームは、一見自然で無害に見える日常的な文章をトリガーとするProAttackを考案した。従来の検知システムでは見抜きにくいことが特徴であり、AIの信頼性に深刻な影響を及ぼす可能性がある。

実験では、放射線診断レポートを要約するよう依頼する通常の表現をトリガーとして利用したところ、ProAttackで弱体化したAIモデルは78~81%の確率で誤って「治療不要」と応答した。さらに既存の防御策を適用した場合でも、ある条件下では97~100%、別の条件でも21~85%が検知を回避し、防御が難しいことが示された。一方で、研究チームはProAttackの成功率を大幅に抑える防御手法も開発した。

サイエンスポータルアジアパシフィック編集部

上へ戻る