2025年6月6日 斎藤 至(JSTアジア・太平洋総合研究センター フェロー)
AIの開発と普及が英語中心で進むなか、多言語に対応する大規模言語モデル(LLM)の研究開発が進んでいる。東南アジアや南アジアの諸国でその動きが見られるなか、タイでも、自国語対応の大規模言語モデル「ThaiLLM」の普及を目指し、国家戦略の下で研究開発が進んでいる。本稿では、その具体的目標と現在開発中のモデル「パトゥマ(Pathumma)」を紹介する。
多言語対応LLMが社会実装され、非英語のプロンプトに対するAIの応答精度が向上すれば、非英語話者の意思を正確に伝達できる。とりわけ医療や観光など、生命の安全や外国での円滑な行動を左右する局面では、信頼性や利便性が高まる。米ジョージア工科大学の大学院生らが発表した研究によると、英語中心で訓練された既存のチャットボットに、英語以外の諸語(話者の多いスペイン語、ヒンディー語、中国語)で質問する実験を行ったところ、英語で同じ質問をした場合と比べ、正確性で18%、回答の一貫性で29%、検証可能性で13%、それぞれ低下したという1。
非英語対応LLMの研究開発は、言語的多様性の高い東南アジアや南アジアの諸国において特に急務である。インドには公用語だけで22、その他の地域語を含めると121言語が存在し、2024年9月、これに対応するLLM開発イニシアティブBharatGenが立ち上がった。東南アジア諸語に対応するモデルとしては、シンガポールがLLaMAをアーキテクチャとしたオープンソースLLM・SEA Lionの開発を進めている。SEA Lion v3.5は国の公用語である英語・中国語・マレー語・タミル語のほか、ジャワ語・スンダ語などインドネシアで話者の多い諸語を含む13言語に対応する。
インドやシンガポールに追随し、タイも自国語対応LLMの独自開発を進めている。タイフーン(Typhoon)は代表例として知られるが、第2次AI国家戦略で示されたフラッグシップ・モデルが「パトゥマ」である。パトゥマは文章・音声・画像をそれぞれ生成する機能を持つマルチモーダル型LLM2で、アリババ社のQwen 2.0(文章・画像処理)とOpenAIのWhisper(音声処理)という2つのオープンソースAIをアーキテクチャとし、2024年10月にv.1が発表された。タイ政府はヘルスケア・観光・環境などの産業領域での活用を目指し、2025年9月までのリリースを目指している3。
タイでは2022年に高等教育科学研究イノベーション省(MHESI)がデジタル経済社会省と共同で、国家AI 5か年戦略・行動計画を発表し、医療・健康、金融、物流など、鍵となる10の産業セクターを措定し、2027年までに、AI関連法案の施行、3万人のAI人材育成、600機関におけるAIの活用を目指している。2024年2月に発足したビッグデータ研究所(BDI)で初代所長を務めるティラニー・アチャラクル教授によれば、30億バーツ以上の経済効果と、2億バーツ以上の雇用機会創出が見積もられている4。
同戦略・行動計画では①ELSI面の整備、②国家計算機インフラの整備、③人的能力・教育の強化、④技術開発の推進、⑤官民活用の推進を実施するという。①に関してはAI倫理ガイドラインの設置、②に関してはエヌビディアのA100 GPUを搭載した高性能コンピュータLANTAが稼働するなど、順調な進捗を見せている5。パトゥマの研究開発を担う産官学合同チームには、BDI、国立電子コンピュータ技術研究センター(NECTEC)と共に、チュラロンコン大学とマヒドン大学、そして2つのAI産業団体が参加し、約340万米ドル相当の政府予算が投じられている6。
タイは政策面で見ると、旺盛な観光産業や、感染症における国際共同研究での高い評価、バイオ・循環型・グリーン(BCG)経済モデルを通じたバイオ・環境関連産業の強化が進んでいる。AIの活用によってこれら産業領域の強化が進めば、感染症罹患のリスクが低減された安心な観光地として、また環境配慮型経済システムを組み込んだ社会として更なる発展につながることが見込まれよう。