韓国科学技術院(KAIST)は、動画内で質問への回答に不可欠な「決定的瞬間(トリガー瞬間)」をAIが自律的に特定する技術を開発し、ICCV 2025で開催されたPerception Test ChallengeのGrounded Video Question Answering部門で1位を獲得したと発表した。

研究チームのメンバーら
動画を対象とした質問応答では、AIが映像全体を十分に確認せず、質問文の言語的な傾向から答えを推測してしまう問題が指摘されてきた。この大会では、動画・音声・テキストなど複数の情報を統合的に扱うマルチモーダルAIを対象に、実際の映像証拠に基づいて判断できているかどうかが評価される。
KAISTの研究チームは、動画全体を無差別に解析する従来手法とは異なり、質問に答えるために不可欠な場面を最初に特定する手法を提案した。研究チームはこの枠組みをCORTEX(決定的瞬間抽出のための推論連鎖)と呼んでいる。
CORTEXは3段階の構成をとる。まず推論AIが質問内容を基に、解答に必要な瞬間を推定する。次に物体位置検出モデルが、その場面における人物や物体の位置を画面上で特定する。最後に追跡モデルが、その瞬間を基準として前後の時間帯における物体の動きを追跡し、誤認識や遮蔽による誤差を低減する。
ICCV 2025は世界的に知られるコンピュータービジョン分野の国際会議であり、Perception Test Challengeはアルファベット社傘下のGoogle DeepMindが主催し、賞金総額は5万ユーロ(約8300万ウォン)とされる。同部門には23チームが参加し、KAISTのSGVR Lab(Scalable Graphics, Vision & Robotics Lab)はHOTA(高次追跡精度)指標で0.4968を記録した。これは2位の米国のコロンビア大学の0.4304を上回り、前年の優勝スコア0.2704と比べても高い数値である。

研究チームが提案した動画質問応答のためのグラウンディング・フレームの処理パイプライン図
(出典:いずれもKAIST)
本技術は自動運転車における事故リスクのある場面の特定、ロボットによる周囲環境の把握、セキュリティ・監視システムでの重要場面の抽出、メディア分析における人物や物体の行動追跡などに応用されることが期待される。
(2025年12月1日付発表)
サイエンスポータルアジアパシフィック編集部