シンガポールの科学者らは、RNA分子の化学修飾を迅速かつ正確に予測するソフトウェアを開発した。これにより、がんなどに関するRNA 分子の役割を理解しやすくなる。(2023年5月15日公開)
RNA分子とも呼ばれるリボ核酸は、細胞内に存在する複雑な有機物質であり、細胞プロセスのためのたんぱく質を生成する。リボ核酸は、ヌクレオチドと呼ばれる 4 つの基本的な構造体から構成される。各ヌクレオチドには、アデニン (A)、シトシン (C)、グアニン (G)、およびウラシル (U) という化学名が使われる。これらの物質の配列によって、生成されるタンパク質の種類が決まる。
RNAは多くの化学修飾を経て、これらの 4 つの物質 [A、C、G、および U] を変化させる。その変化がRNAの機能や処理方法に影響を与える。今まで160 以上の RNA 修飾が発見されているが、その中でも最も一般的な m6A は、がん、神経変性疾患、代謝性疾患などといった人間の疾患に関連している。
シンガポール科学技術研究庁 (A*STAR) とシンガポール国立大学 (NUS) の研究チームは、ゲノムデータからm6A 修飾を正確に予測するm6Anetと呼ばれるソフトウェアを開発した。 m6AなどのRNA修飾を正確に予測すれば、m6Aに関連する疾患を早期発見することができる。この研究はNature Methods誌に発表された。
一般的に、RNA修飾を見つけることは時間のかかる実験が必要であるが、ほとんどの研究室では実施できない。さらに、m6Aの生物学的メカニズムを理解するためには単一分子の解像度で検出することが重要なのだが、今まで採用されてきた方法ではそれができなかった。
チームは、生細胞のRNA分子とそのRNA修飾の両方をシーケンシングする新しい技術であるダイレクト・ナノポアRNA シーケンシングを活用することで、これらの制限を克服した。 A*STAR のゲノム研究所シンガポール (GIS) とNUS データ科学研究所の博士課程の学生であるクリストファー・ヘンドラ (Christopher Hendra) 氏は、3 年間Pythonを使用してm6Anetというソフトウェアを開発した。 ヘンドラ氏はこの論文の筆頭著者でもある。
このソフトウェアは、豊富なダイレクト・ナノポアRNA シーケンシング・データとマルチインスタンス学習 (MIL) の手法を利用してディープニューラルネットワークを学習させ、m6Aの存在を正確に検出する。「従来の機械学習では、通常、分類したいケースごとに 1 つのラベルを使用します。たとえば、それぞれの画像はネコであるかネコではないかのいずれかであり、アルゴリズムはラベルに基づいてネコの画像を他の画像と区別することを学習します」とヘンドラ氏は語る。
ヘンドラ氏によると、m6A を検出する際の問題は、圧倒的な量のデータが利用可能であるにもかかわらず、明確なラベルが存在しないことである。
「何百万枚もの画像が保存されている大きなフォトアルバムがあり、その中に1枚のネコの画像が隠されていて、検索の基礎となるラベルなしにそのネコの写真を特定しようとしていると想像してみてください。幸いなことに、これは機械学習に関する以前の文献で研究されており、MIL 問題として知られています」と彼は付け加えた。
チームはこの研究で、ヒト細胞株からの単一分子予測と、分子修飾の有無について知っている合成データを分析することにより、m6Anetが種を超えて 1 つのサンプルから単一分子解像度でm6Aの存在を高精度で予測できることを証明した。
A*STAR GIS の計算トランスクリプトミクス研究所のグループリーダーで、この論文の上級著者であるジョナサン・ゴケ (Jonathan GÖke) 博士はAsian Scientist Magazine誌に次のように語った。「期待していたものと予測を比較したところ、かなり一致していました。これは、単一分子m6A修飾を特定できたことを表しています。私たちのAIモデルは人間サンプルのデータしか見たことがありませんが、これまで見たことのない種のサンプルであっても、RNA修飾を正確に識別することができます」
ゴケ博士の説明によると、m6AnetでRNA修飾を特定するには、まず目的のサンプルからダイレクトRNAシーケンシングのデータを生成する必要がある。次に、ダイレクトRNAシーケンシングのデータを処理して、修飾検出用のデータを作成しなければならない。データ処理後、m6Anetを実行すれば、このサンプルのRNA修飾を推測できる。
この研究の主な利点は、RNA修飾プロファイリングがはるかに簡単になり、利用しやすくなったことである。これにより、さらに多くの人々がm6Aをプロファイリングできるようになる。
この研究は、がんの治療と調査でも重要である。研究者たちは長い間、DNA配列が正しい細胞でも、生成されるたんぱく質はRNAにより変化する可能性があると考えてきた。がん患者の場合、このような変化により、がん細胞を殺すたんぱく質が減少したり、がん細胞の分裂を継続させるたんぱく質が増加したりする可能性がある。
A*STAR のGISのエグゼクティブ・ディレクターであるパトリック・タン (Patrick Tan) 教授は「RNA修飾を正確かつ効率的に特定することは長年の課題でしたが、m6Anet はこれらの制限に対応してくれます」と話している。