Trillion Gene Atlas:進化から新薬設計を加速させるゲノムデータプロジェクト

Trillion Gene Atlas:AIによる新治療薬設計を加速する大規模ゲノムプロジェクト

Basecamp Researchは、「Trillion Gene Atlas」と呼ばれる新たな科学的イニシアチブを開始しました。このプロジェクトは、数百万種のゲノムデータを集約し、AIを活用した新治療薬の設計を指導・拡大することを目的としています。

プロジェクトの規模と目的

このイニシアチブは、AI企業のAnthropic、’$100 genome’企業であるUltima Genomics、および遺伝子シーケンシング専門企業のPacBioとの共同で開始されました。パートナー企業によると、本プロジェクトは「世界中の数千のサイトから1億種以上のゲノムデータを収集することで、既知の進化的遺伝的多様性を100倍に拡大する」とのことです。

プロジェクトは「ヒトゲノム計画と同規模」とされ、その究極の目的は「AIシステムが進化から学び、オンデマンドで新しい医薬品を設計するために必要な、膨大で多様なトレーニングデータを提供する」ことです。NVIDIAがAIインフラを提供し、生物学的データの収集と分析には2年間の期間が設定されています。

既存のAIモデルとTrillion Gene Atlasの革新性

Basecamp Researchの共同創設者兼最高経営責任者であるGlen Gowers氏は、「今日の生物学的AIモデルは、地球上の生命の狭い断片でトレーニングされている」と指摘しています。現在、遺伝子配列に基づく基盤モデルの80%は、2億5千万未満の配列を含む公開データベースに依存しています。

Gowers氏は、「Trillion Gene Atlasは、公開データベースにあるものをはるかに超えて、既知の遺伝的宇宙を桁違いに拡大する」と述べ、「この規模でのモデルトレーニングは、プログラマブルな治療薬設計の新しいパラダイムを確立する」と強調しました。

Basecamp Researchの既存技術との連携

このアトラスは、Basecamp Researchが今年初めに発表したEDEN基盤モデルを活用します。EDENモデルは、100万以上の新種から100億以上の新規遺伝子でトレーニングされており、同社のaiPGITMプラットフォームの基盤となっています。このプラットフォームは、ヒトゲノムへの大規模でプログラム可能かつ正確な遺伝子挿入のために設計されています。

同社は、EDENモデルが、欠陥遺伝子の置換や、がんや遺伝性疾患などの治療応用に向けた細胞の再プログラミングといったタスクにおいて、新しい方法を提供すると示唆しています。Trillion Gene Atlasは、AIトレーニングに適したゲノムデータの広さと文脈的深さを拡大することで、このアプローチをさらに発展させると期待されています。

国際的な協力体制の拡大

Trillion Gene Atlasの立ち上げの一環として、Basecamp Researchはチリ、アルゼンチンとの新たなパートナーシップ、および南極での協力関係の拡大を発表しました。これにより、同社の科学協力者ネットワークは31カ国に拡大されます。

元記事:Basecamp lifts veil on Trillion Gene Atlas genomics push