高性能スーパーコンピューティングは業界の進歩を加速させ、都市のスマート化から病気の診断の改善まで、我々の日常生活に影響を与えている。(2024年11月20日公開)
スーパーコンピューターとクラウド・コンピューティングの普及により、産業界は、処理のスマート化、高速化、低価格化を求めて革新を進めている。たとえば、デジタルツインは海洋研究者がスマートな自律型船舶を開発し、都市計画者がより快適な住宅街を建設するために役立っている。
高性能コンピューティング (HPC) もますます身近になっている。医療分野では、生物医学の研究者たちは協力してオープンクラウド・プラットフォーム上でHPCを活用して脳画像データの分析を行い、脳疾患の診断を改善させている。業界のデジタル化に伴い、関係者はサービスが行き届いていない地域が取り残されることのないよう奮闘している。東南アジア地域向けの大規模言語モデル (LLM) の開発もその一例である。
各分野において、HPC技術とその進歩は急速にデジタル・トランスフォーメーションを形成し、その舵を切っている。
1700年代に蒸気機関が発明されて以来、技術の進歩により海運業界は劇的に変化してきた。今日、この分野ではデジタル化が進み、スマートな輸送システムが生まれている。これを明確に表すのが海上自律水上船 (MASS) であり、遠隔操作船から複雑な意思決定が可能なオペレーティングシステムを備えた無人式船舶まで多岐にわたる。
MASSは人員を削減することにより効率性を高め、安全性を向上させ、運用コストを削減することができる。シンガポール共和国海軍は、海底の機雷を探知して処分する無人船舶を配備している。
有人船舶が出航に30分必要とするのに対し、無人船舶は10分で効率的に出航する。さらに、有人船舶は32人の乗組員を必要とするが、無人船舶ならばわずか3人で安全な陸上ステーションから制御を行える。
シンガポールにあるオフショア&マリン技術センター (TCOMS) の自律遠隔操作船舶センター・オブ・エクセレンスは、MASSの研究を先導しようと、シンガポール国立スーパーコンピューティングセンター (NSCC) のペタスケールのスーパーコンピューターを活用している。
デジタル・ツインは、将来のシナリオを先験的に予測・評価するのに役立ち、刻々と変化する海況に対応できるようMASSの能力を向上させることができる。これは、船員が実際の状況、特に厳しい海の状況に対応するときに経験的知識に頼るようなものである。TCOMSの研究者たちは、数値流体力学シミュレーションを使用して、海流、波、風を伴う荒天時の船舶の操縦性と全体的な動きを理解するためにMASSのデジタルツインを作成した。このようなモデルは、最終的にMASSの自律航行、最適な航路計画、衝突回避の機能を向上させることとなる。
研究者たちはNSCCシンガポールで、数百の中央処理装置を持つ並列コンピューティングを活用し、特定の操舵動作における船舶の動きと速度の経時的予測を可能にした。
デジタルツイン技術は、建築環境の複雑性と風、温度、太陽放射照度、騒音などの環境要因との相互作用についてシミュレーションを行い、海岸からコンクリートジャングルまで、都市計画も変革してきた。このような技術の一例として、シンガポール住宅開発庁のエンジニアが高性能コンピューティング研究所および情報通信研究所の研究者と協力して構築した統合環境モデラー (IEM) が挙げられる。
IEMは高解像度シミュレーションツールであり、水域、緑地、建物などの都市の主要な特徴と、道路交通騒音などといった複数の自然環境パラメータを統合する。1つか2つ程度の環境要因を評価する商用モデルと比較して、IEMは一つの3次元モデルを使い、機能とパラメータの間に起こる複雑なマルチフィジカル相互作用をシミュレーションできる。そのため、IEMは現実世界のシナリオをうまく模倣して都市設計を最適化する。
IEMの注目すべき応用例として、シンガポールで初めてスマート技術を最初から使って設計された公営住宅地である「森の町」テンガがある。IEMはシンガポール初の国家ペタスケール・スーパーコンピューターである ASPIRE 1 を搭載しており、テンガの計画に採用されたのは2016年のことである。現在、テンガは徐々に公開されつつあり、住民は太陽熱の吸収を減らし、街を涼しくするために緑地と都市機能を最適に融合させるバイオフィリックデザインを体験できる。
IEMは2019 年に大統領技術賞を受賞し、その後、2021年に地元のICTシステムプロバイダーであるWizvision社にライセンス供与された。Wizvision社はIEMを建築、エンジニアリング、建設業界で幅広く利用できるように改良し、IEMSim™ として商品化した。
一方、研究者たちはIEMの成功を基にしてフェーズ2であるIEM2に進んでいる。IEM2には気候変動によって都市のヒートアイランド現象が増幅されるとともに、ますます重要な要素となっている平均放射温度や熱的快適指数を扱うことを目的として環境物理学パラメータを拡張するなどの進歩が見られる。
研究者たちは外部環境のデジタルアバターを作成するだけでなく、神経疾患と闘う方法に革命をもたらす「デジタル脳」を開発するために、人体の内部にも目を向け脳の画像分析を加速させている。
磁気共鳴画像 (MRI) は、脳の機能と構造についての情報を教えてくれる。MRIデータを使えば、発達中の脳の変化を観察できるだけでなく、脳腫瘍、脳卒中、アルツハイマー病やパーキンソン病などといった神経変性疾患を診断できる。豊富なデータがあれば、神経疾患のシミュレーションと予測を可能にする脳のデジタルツインを作成できる。しかし、磁気共鳴信号の生データを前処理するときに大きな計算負荷がかかり、それがボトルネックとなっている。
日本の理化学研究所計算科学研究センターの研究チームは、世界的に有名なスーパーコンピューターである富岳を利用してこの課題に正面から取り組んでいる。チームはまず、富岳の単一ノードの脳画像の前処理性能(ノイズ低減、データ歪みの補正など)を最大化し、その後、複数のノードでの並列コンピューティングを活用して、大量の画像の前処理を高速化した。富岳は158,976ノードを持つが、チームはそのうちのわずか177ノードを使用して、1,410枚の脳画像を17.33時間で処理した。これは、既存のソフトウェアプログラムでは数年かかるタスクである。
日本では政府が支援して6年間にわたる認知症の薬物治療開発研究が進められる。そのプロジェクトの一環として、富岳を使い「デジタル脳」を確立する準備が整った。富士通とGMO学術サポート&テクノロジー株式会社は協働して、2024年3月に富士通のクラウドプラットフォームであるComputing-as-a-Serviceに脳MRIデータの解析環境を構築した。この解析環境は、オープンデータと富岳で開発されたソフトウェアの両方を提供し、研究者やエンジニアなどのエンドユーザーが脳MRIデータを超高速で前処理できるよう支援する。ユーザーは独自のデータを入力できるため、脳MRI解析AIツールを効率的に開発できる。この分野での共同作業により、神経精神疾患の早期自動検出が実現するかもしれない。
英語話者の脳は、テキスト内の「LOL」を自動的に「大声で笑う」という意味に処理する。しかし、多くの者は「5555」や「wkwkwk」がそれぞれタイやインドネシアで一般的な笑いの表現であることを認識しないであろう。このような文化のニュアンスを理解するには現地の言語に触れる必要があるが、ChatGPTなどチャットボットを動かす既存のLLMにはそれが欠けている。
生成AIの分野はますます活発になり、開発者は競って大規模かつよりスマートな言語モデルを構築しようとしているが、LLMにおける文化的偏見は依然として問題となっている。多くのLLMは英語の言語トレーニングデータが入力されるが、それはインターネットから収集された情報を含み、文化・社会・政治の面で西洋中心であることが多い。
LLMにおける東南アジア言語の不足に対処するため、AIシンガポール (AISG) は2023年12月にLLMの東南アジア言語ネットワーク (SEA-LION) ファミリーを立ち上げた。この共同作業には、シンガポール科学技術研究庁 (A*STAR)、国立研究財団、情報通信メディア開発庁 (IMDA) が参加した。
SEA-LIONは、東南アジアの言語向けにカスタマイズされたAISG独自のSEABPETokenizerを使用し、テキストの長さをLLMの学習に使用される単語の断片に分解する。東南アジアに最適化された言語トークナイザーを活用するだけでなく、SEA-LIONの学習データの13%はタイ語、インドネシア語、マレー語、ベトナム語などの現地語であり、MetaのLlama2が0.5%であるのとは対照的である。
直接比較テストでは、SEA-LIONとLlama2の両方にインドネシア語でASEANとは何かを尋ねた。SEA-LIONが正しい言語で正しい答えを出したのに対し、Llama2はASEANが何であるか理解できず、英語で長い答えを返した。これは注目に値する。
AISGはSEA-LIONのトレーニングでアマゾンウェブサービスのクラウドインフラを利用した。256基のNVIDIA A100 Tensor Core画像処理装置のパワーにより、SEA-LIONの30億パラメータバージョンは14日で学習を完了し、スケールアップした70億パラメータバージョンは22日で完了した。SEA-LIONは既存のLLMよりも小さいが、軽快である。
AISGはSEA-LIONを一般に公開し、LLMを民主化するとともに、十分なサービスを受けていない地域の企業を含め、企業がコンパクトサイズのLLMを迅速かつコスト効率よく導入し、微調整できるようにした。例えば、インドネシアのeコマースプラットフォームであるTokopediaは、SEA-LIONを利用して東南アジアの言語で商品説明を生成し、より多様な利用者に改善された顧客体験を提供している。一方、SEA-LIONはシンガポールのIT企業であるNCS社の法令遵守プロセスのコンテンツを、NCS社が以前使用していた英語ベースのLLMよりも正確なタイ語やインドネシア語に翻訳する手助けをしている。
2023年12月、地域のLLMの発展を継続するために、シンガポールは7,000万シンガポールドル(約5,300万米ドル)のイニシアチブである国家マルチモーダルLLMプログラム (NMLP) を立ち上げた。IMDA、AISG、A*STARとパートナーシップを結び、NSCCシンガポールのHPCリソースの支援を受けたNMLPは、SEA-LIONを300~500億パラメータサイズのLLMに発展させ、マルチモーダル音声テキスト変換モデルに拡張することを目指している。
SEA-LIONの発表のすぐ後で、中国の大手テクノロジー企業アリババの研究機関であるDAMOアカデミーは、東南アジア言語に焦点を当てた独自のオープンソースLLMであるSeaLLMを立ち上げた。SeaLLMと、これに対応し会話用に微調整されたSeaLLM-chatは、70億パラメータサイズと130億パラメータサイズのバージョンを持つ。
SeaLLM は、ChatGPT-3.5 などの英語中心の LLM よりも最大 で9 倍にもなる長いテキストの解釈と処理を行い、運用コストも安いとされている。翻訳と理解、数学的推論、一般的な質問と地域に特化した質問への回答など、さまざまなベンチマークにおいて、SeaLLM- 13Bは、タイ語、ビルマ語、ラオス語、クメール語などの言語でChatGPT-3.5を上回った。
HPCへのアクセスが容易になるにつれ、業界関係者はデジタル化が進む経済の中で、その能力を活用して業務を改善し続けるであろう。それと並行して、我々の日常生活に関わる産業が変革を遂げるにつれて、公平なアクセスやAIガバナンスなどの問題に取り組む必要がある。