【AsianScientist】がんの変異検出器開発―ディープラーニングで DNA 配列のデータをふるいに

シンガポールの研究者は、人工知能(AI)を使用して患者の検体中のがん変異を正確に検出する新しい方法を開発した。

がんは、世界中で最も多い非感染性疾患の 1つである。シンガポール国家疾患レジストリによると、シンガポールだけで 2015 年から 2019 年の間に 7万8204 例の報告があった。つまり、この5年間に、1 日あたり 43 人近くの患者が何らかのがんと診断されたことになる。このことから、がんを引き起こす変異をヒトの遺伝子の中で特定すれば、疾患形成のメカニズムを理解し、患者の検体に見られる特定のがん変異を標的とする精密医療の開発に大いに役に立つと言える。

しかし、数十億ものヌクレオチドが含まれる膨大な患者データから配列を決定し変異を特定することは、時間も費用も浪費する。そのため、世界中の科学界は、AIを使用してプロセスの効率性と正確性を高める取り組みを続けてきた。

シンガポールゲノム研究所 (GIS) の研究グループは、AIを使用する変異検出器を開発した。この検出器は VarNetという名で知られ、ディープラーニング(深層学習)モデルを使用してDNA 配列の生データをふるいにかけ、変異を検出する。このグループは最近、Nature Communications 誌に研究結果を発表した。

VarNet はAIを使う変異検出器として最初のものではないが、GIS のコンピューターがんゲノム研究所のグループリーダーであり、論文の共著者であるアンドレ・スカンデロップ (Anders Skanderup) 氏によると、ディープラーニング・モデルである点がユニークだという。

スカンデロップ氏は Asian Scientist Magazine とのインタビューで、「ディープラーニング・モデルは、通常、堅牢に機能するためには、膨大な量のラベル付き学習データを必要とします」と語る。がんゲノミクスのDNA配列データは通常は逆位を示し、個々のデータサンプル自体はそれほど大きくなく、すべての変異が完全にラベル付けされているわけではない。このため、「学習データセットを作成するには、かなりの人的資源が必要となり、がんの変異を検出するディープラーニング・モデルの学習上での課題となっています」(同氏)。ディープラーニング・モデルは、学習用データセットの中で十分にラベル付けされていないデータを大量に処理し、がんの変異を見つけることができる。

スカンデロップ氏と彼のチームは、さまざまなソフトウェアを使用して、7 つの種類のがんから全部で300 を超えるゲノムを得て、配列決定データに関する高品質の『疑似ラベル』を作成し、その後、それを VarNet に入力した。これらの『疑似ラベル』は、VarNet に必要な情報を提供し、がん患者から得た300の検体のDNA 配列生 データからさまざまながんの変異を検出した。

ラベル付けされた腫瘍データだけでなく、健康な組織からの DNA 配列決定データも並行して入力された。これは、人間が癌組織サンプルの配列データと健康な組織サンプルの配列データを視覚的に比較する方法を模倣するために行われた。VarNet はそこで入力された配列データに存在する突然変異を検出した。

学習修了後、実際の腫瘍データとさまざまながんゲノムデータベースから合成的に導出された腫瘍データを使用して、VarNet の変異検出性能を、 AIを使用する既存の変異検出器と比較した。総合的に見て、実際の腫瘍データと合成腫瘍データのほとんどにおいて、VarNetが変異を検出する精度は他の変異検出器よりも優れているという結果が示された。

莫大なDNA配列データからがんの変異を特定することは時間と費用がかかる作業であり、また、AIを使用する変異検出器の結果を検証し、チェックするには人手が必要である。しかしVarNetが突然変異を正確に検出することに成功したことから、スカンデロップ氏は「将来、この検証プロセスでは人間の専門家はあまり必要でなくなるかもしれません」と期待を寄せた。

(2022 年10月31日公開)

上へ戻る