韓国の漢陽大学校(Hanyang University)のコンピューターサイエンス学科(Department of Computer Science)のソ・ジウォン(Seo Ji-won)教授率いる研究チームが、多言語対応の会話チャットボットエージェントの学習効率を高めるデータ生成技術を開発した。10月13日付発表。この研究成果は、計算言語学会(Association for Computational Linguistics:ACL)の年次大会で発表され、ACL Anthologyに掲載された。
米国、中国、フランス、インド各国との共同開発。従来、主要な国際会議で発表された会話チャットボットは、一般的でない言語のデータセットの作成コストが高くつくことから、英語や中国語などの広く使われている言語に限定されていた。
ソ教授の研究チームと米スタンフォード大学、中国天津大学(Tianjin University)、仏パリ・サクレー大学(Université Paris-Saclay)、インドのマイクロソフト・リサーチ・インディア(Microsoft Research India)、国際情報技術研究所(International Institute of Information Technology)、カリヤ社(Karya. Inc)からなる国際共同研究チームが開発した技術と方法論は、データセット全体を翻訳するのではなく、データセットのうち機械翻訳した部分の品質を人間が翻訳したデータに基づいて向上させることで、一般的でない言語のデータセット作成コストの大幅な削減を可能にする。
研究チームは、英語、フランス語、ヒンディー語、韓国語、英語とヒンディー語が混じった混合語の5種類の言語で、この技術と方法論の実験を行った。また、データセットの質をさらに向上させるために、さまざまな自動・半自動の検査ツールも開発した。研究の成果と会話チャットボットエージェント用のデータセット、コード、検査ツールはオープンソースで公開されている。
サイエンスポータルアジアパシフィック編集部