インド理科大学院(IISc)は11月20日、IISc化学工学科の研究室が機械学習モデルに使用可能な、ナノポア(nanopores)の形状と構造を文字列の形で符号化した新しい言語を考案したと発表した。研究成果は学術誌Journal of the American Chemical Societyに発表された。
機械学習モデルは、ナノポアの構造を分析し、新しい特性を発見するためのツールになる。しかし、機械学習モデルにおいてナノポアがどのような形状であるかを説明するのは難しい。IISc化学工学科のアナンタ・ゴビンダ・ラジャン(Ananth Govind Rajan)准教授の研究室が考案した言語は、あらゆる機械学習モデルを訓練し、さまざまな材料のナノポア特性の予測に使用することができる。
STRONG(STring Representation Of Nanopore Geometry)と呼ばれるこの言語は、異なる原子配置に異なる文字を割り当てる。ナノポアのエッジ上の全原子の文字列を作成することで、ナノポアの形状を特定することができる。例えば、完全に結合した原子(3つの結合を持つ)はFとして表し、コーナー原子(2つの原子と結合)は、Cとして表す。これにより、研究チームは回転や反転に関連するものなど、同一のエッジ原子を持つ機能的に同等なナノポアを特定する迅速な方法を実現した。機械学習モデルはSTRONGの文字を読み取り、ナノポアがどのようなものかを理解し、その特性を予測することが可能だ。
研究チームは、長いシーケンスにうまく対応し、時間の経過とともに情報を選択的に記憶したり忘れたりできる自然言語処理で利用される機械学習モデルの1つであるニューラルネットワークに着目した。このモデルは、コンピュータに明確な指示を与える従来のプログラミングとは異なり、これまで遭遇したことのない問題をどのように解決するかを学習する。研究チームは、既知の特性(形成エネルギーやガス輸送の障壁など)を持つナノポア構造を数多く用意し、ニューラルネットワークを訓練した。その結果、訓練データを用いて、近似的な数学関数を導き出し、STRONGの文字の形で構造が与えられた際のナノポア特性を推定することに成功した。
サイエンスポータルアジアパシフィック編集部