インド工科大学マドラス校(IIT-M)の研究ラボであるAI4Bharatは、インドの13言語を対象とした音声翻訳データセットBhasaAnuvaadを発表した。インドのAI関連のポータルサイトINDIAaiが11月13日に伝えた。
インド言語の自動音声翻訳(AST)のデータセットは不足している。現在公開されているリソースは、22の公用語のうち10言語にも満たない状況である。これによって、インド言語のASTシステムは、英語のようなリソースの大きな言語に比べ、遅れをとっている。
BhasaAnuvaadを紹介する論文によると、研究者はインド言語でこれまで使用されていたASTシステムのパフォーマンスを評価し、著しい性能格差や課題の特定を試みた。その結果、これらは、読み上げ音声では適切に機能するものの、ためらいや躊躇など、なめらかではない自発的な発話に対して著しく弱いことが明らかになった。この知見は、ASTシステムを実際の環境でより厳密に評価し、ベンチマークする上で必要であると考えられる。
BhasaAnuvaadは、ASTの公開データセットとしては最大規模で、予定されているインドの22言語のうち13言語と英語が利用でき、4万4400時間以上、1700万のテキストセグメントを備えている。BhasaAnuvaadには、英語の音声からインド語へのテキストと、インド語の音声から英語へのテキストのデータが含まれている。このデータセットは、(1)既存のリソースからキュレーションされたデータセット、(2)大規模なWebマイニング、(3)合成データの生成の主要な3つのカテゴリで構成されている。
この多様で広範なデータセットを提供することで、研究者らはリソースギャップを埋め、インド言語のASTの進歩の促進を目指している。
サイエンスポータルアジアパシフィック編集部