【AsianScientist】生成 AIが新薬開発のプロセスを加速―日本では製薬業界の発展へ Tokyo-1推進

重篤な疾患に対する新薬開発において、生成 AI (人工知能)は、数年にわたる従来のプロセスを加速させ、研究者に欠かせない道具となるかもしれない。(2023年11月16日公開)

サウラブ・シンガル (Saurabh Singal) 氏はチェスの愛好家であり、友人の中にはチェスのグランドマスターもいる。シンガル氏と友人たちは別の種類のゲームを行う混合チームのメンバーであり、シンガル氏はそのチームのリーダーである。そして、そのゲームは、世界中の何百万人もの命に影響を与えるかもしれない

ボードを挟んで、片方にはパーキンソン病を引き起こす鍵となるタンパク質のα-シヌクレインがある。反対側にはシンガル氏をはじめとするコンピューター科学者、生化学者、生物物理学者、数学者、人工知能 (AI) エンジニアのチームがいる。

共同研究を行うためにインド工科大学 (IIT) デリー校とシンガル氏のデータ サイエンス会社である KnowDisが連携し、シンガル氏のチームが出来上がった。チームの目的は生成 AI を活用してα-シヌクレインの脳への影響を打ち消す可能性のある新しい治療法、特に抗体を発見し、パーキンソン病その他同様の神経変性疾患による衰弱作用を遅らせ、あるいは止めようというものである。

シンガル氏はAsian Scientist Magazine誌のインタビューで「チェスのグランドマスターがこの研究で何ができるのか疑問に思うかもしれませんね」と笑った。「タンパク質がどのようにして『捕獲』を回避できるかを理解しようとする場合、グランドマスターは、優れた洞察を提供してくれるかもしれません」

創薬は通常、標的の発見と、その標的に効果のある薬剤の発見という2つの重要な段階から始まる。標的はタンパク質分子上の部位であることが多く、結合があるとその活性が停止または変化し、そのため関連する疾患の影響は軽減される。薬剤の多くは非常に特殊な形状と化学組成を持ち、効果的に各部位に適合し、結合する必要がある。それは錠前に差し込む鍵のようなものである。

しかし、α-シヌクレインは特に厄介な相手である。科学者たちはα-シヌクレインを天然変性タンパク質 (IDP) と呼んでいる。α-シヌクレインは絶えず変化する三次元構造を持つ分子であるため、標的を探すことも効果のある薬剤を見つけることもさらに困難なものになる。

では、鍵穴の形が変わるならば、その鍵はどうやって見つければいいのか?まず、変形のルールを探す必要がある。次に、コンピュータに探す手伝いができるようトレーニングを施す。

見つけるか、作るか

医学研究の分野では、AIは新しいツールではない。デリー工科大学ヤルディ AI スクールのコンピューター科学者であるサヤン・ラヌ (Sayan Ranu) 准教授はAsian Scientist Magazine誌に対し「この分野では、教師あり学習アルゴリズムを使った研究が長年にわたって行われてきました。基本的にはお手本を使い学習するのです」と語った。

機械学習の専門家であり、KnowDis-IIT チームのメンバーであるラヌ准教授は、アルゴリズムがどのように機能するかを簡単に説明してくれた。

「『この写真の中でゾウはどこにいるか?』という問題を解く方法をAIに教えたいとしましょう。ゾウのいる写真といない写真のデータセットを何千枚も用意し、それぞれにラベルを付けて訓練するのです」

十分に訓練すれば、アルゴリズムはゾウの牙や鼻など具体的で一般的な画像の特徴を『ゾウ』というラベルに関連付けることを学習する。その後、ラベルのない画像を AI に見せると、共通の特徴に基づいてどの部分に象が含まれているかを判断する。

ラヌ准教授は、ゾウの写真を腫瘍スキャン画像に置き換えれば、医学研究を加速させる強力なツールになる可能性があるという。研究者たちはすでにこのようなニューラルネットワークを使い、マラリアの新しい治療法の発見からがんの原因となるタンパク質の特定に至るまで、研究で役立てている。適切な参照元と十分な処理能力があれば、コンピューターは科学的に知られている何百万もの化合物をふるいにかけ、標的分子とほぼ一致するであろう化合物を浮かび上がらせ、数年間にもわたる研究を数か月に短縮できる。

しかし、AI が参照するのに十分なゾウの写真がない場合はどうするのか?あるいは、ゾウがどのようなものであるか実際には知らず、ゾウを定義する特徴のリストだけがある場合はどうするのか?提起された問題が「ゾウはどこにいるか」ではなく、「ゾウはどのように見えるのか」である場合はどうするのか?ここで生成 AI の登場である。

「生成AIは異なるアプローチを使います」とラヌ准教授は語った。「生成 AI は大規模なデータセットからパターンを特定することを目的とするのではなく、問題の解決方法について与えられたルールに基づいて、有用となりえる新しいデータを作成できます」

創薬の場合、生成 AI は、以前の使用した AI 手法で遭遇した問題について代替ソリューションを提供してくれる。AI に学習させるにあたり、医学的に役立つかもしれない分子のデータベースは常に足りているというわけではない。その一方、非常に広範なデータベースが存在するため、最も強力なコンピューターであっても標的分子に一致するものをうまく選別できないこともある。

これらの問題に加えて、現在、科学的に知られている分子が特定の疾患標的に作用しない可能性も十分にありえる。しかし、ラヌ准教授は、生成 AI は、標的に作用させることだけを目的として新しい分子を作ることができると付け加えた。

部品を形成する

α-シヌクレインは通常、健康な脳の中では神経信号伝達や細胞内交通制御のような重要な機能の役に立つ。だが、浮遊するα-シヌクレイン分子が、その天然変性挙動や遺伝的変異を原因として別の分子に付着して変形すると問題が生じる。

「2つのα-シヌクレイン・モノマーは二量体を形成し、さらに他のものと結合してオリゴマーを形成します。最終的に、それらは凝集して不溶性の塊になり、神経信号伝達プロセスを損なうのです」とシンガル准教授は述べた。

これはパーキンソン病のような疾患の多くに共通する経過である。脳細胞内(パーキンソン病の場合)または脳細胞間(アルツハイマー病の場合)のいずれかでα-シヌクレインのようなタンパク質が異常に蓄積すると、認知症や筋肉制御障害などといったさらに重篤な症状につながる神経損傷を引き起こす。このような塊が形成されると、取り除くのは困難である。

シンガル氏は、抗体は1つの解決策であると述べる。抗体はタンパク質そのものであり、私たち自身の免疫システムによって自然に生成され、対応する疾患関連分子(抗原)に結合して病気と戦ってくれる。抗体が凝集を防ぐ形でα-シヌクレインに結合できれば、神経損傷の悪化を防ぐと期待される。

しかしながら、適切な抗体を見つけるのは困難である。抗体の特異性の秘密は、相補性決定領域 (CDR) にある。この領域は、抗体の Y 字型分子構造の枝にあるアミノ酸のループ部分である。鍵の突起部分のように、CDRのわずかな違いが、特定のウイルスタンパク質に合う抗体とそうでない抗体との違いを生むことがある。

これは数学的には困難な見通しとなろう。単一のヒト抗体は12個の CDR を持つ。それぞれの CDR はアミノ酸の連鎖配列であり、通常は7~13のアミノ酸ユニットを持つ。アミノ酸ユニットは20種類あると考えられる。

IIT デリー校の化学工学のガウラヴ・ゴエル (Gaurav Goel) 准教授はAsian Scientist Magazine誌に対し「探究すべき大きな可能性の余地があります」と語った。「Observed Antibody Space (OAS) と呼ばれる、科学的に知られている抗体配列の公開データベースがあります。このデータベースは有名であり、10億を超える分子が登録されています。しかし、これほどの数であっても、存在する可能性のある独特なヒト抗体の全てを表しているわけではありません」

これに加えて、ゴエル准教授によると、OAS には、実世界で発生する抗体抗原複合体の詳細な構造データがまだ十分にない。その理由の1つは、複合体の分析には高価で手間のかかる試験方法が必要なためである。

ゴエル准教授は「これが、私たちが生成 AI を検討している理由の核心です」と話してくれた。「登録された配列から選択したり、10億の配列データベースからすべての抗体を新しい抗原ごとに試験する以上のことができるのです。AI にタンパク質の言語やそれに関する分子動力学を教えることができれば、理論的にはあらゆる抗原に対する抗体を設計できるでしょう」

KnowDis-IITチームはトレーニング用にタンパク質の分子動力学を正確に再現できるコンピューター・シミュレーションを開発し、AIモデルを支えようとしている。ゴエル准教授はそのチームを支援している。チームの最終目標は、α-シヌクレインだけでなく、より広範囲の疾患関連分子に対する抗体を作成できる生成 AI プラットフォームを開発することである。

シンガル准教授は「干し草の山から求めている針を見つけるのではなく、...いえ、この場合は鍵ですね。鍵を見つけるのではなく鍵を作るのです」と語る。

世界の追求

人工的に生成された抗体は、がんから新型コロナウイルス感染症 (COVID-19) に至るまで、さまざまな病気の治療ですでに使用されているが、通常、その開発には何年にもわたり、費用もかかる。

多くの治療薬候補は臨床試験に至る前に失敗する。成功したものには、失敗した治療薬のコストをカバーしようとして、高額な価格が設定されることが多い。

ゴエル准教授にとって、生成 AI はコストを削減するだけでなく、スケジュールを短縮し、個別化先端医療への扉を開く可能性を提供してくれる。ゴエル准教授は、ある患者がある病気について診断され、その病気に対する抗体の作成が数年ではなく数週間で済むと想像してほしい、と述べた。

この展望に注目しているアジアの研究者は、KnowDis-IIT チームだけではない。バイオテクノロジーの新興企業から大手製薬企業まで同様に関心を持ち、大手テクノロジー企業や政府と協力して、生成AIの可能性が大規模な創薬で発揮できるよう開発を進めている。

2023年3月、日本の商社大手・三井物産と米国のテクノロジー大手・エヌビディアは、高解像度分子動力学シミュレーションやジェネレーティブ AI モデルなど、創薬を加速するテクノロジーで日本の製薬業界を発展させるためのイニシアチブである Tokyo-1 を推進することを発表した。Tokyo-1 は、NVIDIA DGX で構築されたスーパーコンピューターの提供を予定し、Tokyo-1ユーザー企業となる日本の製薬会社やスタートアップ企業が利用できるようになる。三井物産の子会社であり Tokyo-1 を運営するゼウレカのプロダクト・エンジニアリング・マネージャーである牧口大旭氏は、「昨今のAI分野の隆盛の裏では大規模学習による飛躍的な精度向上が確認されてきた。学習量が一定規模を超えた段階で予測精度は飛躍的に向上するが、そのためにはこの領域に到達できる計算力が必要になってくる。Tokyo-1 は、このような障壁に対処し、日本でデータ ドリブンによって AI 創薬に取り組み、日本の製薬業界のさらなる発展につながるよう、ユーザー企業を支援していく」と述べる。

デリーに話を戻そう。シグナル准教授のチームは、オンサイトの小規模マシンと Tokyo-1 と同様のクラウド コンピューティング・リソースを使用して研究を行っている。チームには大きく高価なハードウェアを導入する資金はないかもしれないが、シミュレーションを大幅に高速化できる新しいコンピューター サイエンス技術を開発している。シンガル准教授によると、中にはこの分野でまったく新しい技術もあるという。

「私たちのチームの人材は皆優秀です」とシンガル准教授は笑顔で語った。「私たちはこの開発競争の中でも卓越していると自信を持って言えます」

上へ戻る