科研

首页 - 全部文章 - 科研 - 从DNA序列预测基因调控!DeepMind推出AlphaGenome模型,可分析100万个DNA碱基对

从DNA序列预测基因调控!DeepMind推出AlphaGenome模型,可分析100万个DNA碱基对

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子效应仍是重大挑战。现有深度学习模型在预测功能基因组特征时,往往在输入序列长度与预测分辨率之间难以兼顾,同时在多模态预测方面也存在局限性,这极大地制约了人们对基因组调控密码的理解。

近日,谷歌DeepMind公司推出一种深度学习模型——AlphaGenome,能够更全面、更准确地预测人类DNA序列中的单个变异如何影响基因调控的广泛生物过程。AlphaGenome可分析多达100万个DNA碱基对,以单碱基分辨率预测与调控活动相关的数千种分子特性;并通过比较突变序列和未突变序列之间的预测结果,来评估基因变异的影响。在超20项基准测试中,该模型表现优异、达到或超过了现有最强外部模型的性能,为科研人员提供了从序列进行基因组轨迹和变异效应预测的工具。

据悉,DeepMind将通过AlphaGenome API(https://github.com/google-deepmind/alphagenome),提供预览版AlphaGenome用于非商业研究,并计划在未来发布该模型。

与现有DNA序列模型相比,AlphaGenome的特点包括:

高分辨率的长序列上下文输入预测

AlphaGenome模型以长达100万个碱基对的DNA序列作为输入,对数千个功能基因组轨迹进行预测,且预测分辨率可达单碱基级别。

◆综合多模态预测

AlphaGenome能够预测11种分子模态,包括基因表达(RNA-seq、CAGE-seq、PRO-cap)、剪接模式(剪接位点、使用率、连接点)、染色质状态(ATAC-seq、组蛋白修饰等)及染色质可及性(Hi-C),提供更全面的基因调控信息。

◆高效变异评分

除预测各种分子特性外,AlphaGenome还能在1秒内高效地评估基因变异对所有这些特性的影响。

◆新颖的剪接位点建模能力

AlphaGenome能够直接从序列中明确模拟剪接点的位置及表达水平,为理解遗传变异如何影响RNA剪接提供更深入的见解。

图1. AlphaGenome模型架构、训练机制和综合性能评估

AlphaGenome是首个将多模态预测、长序列上下文碱基分辨率统一到单一框架中的模型AlphaGenome采用了U-Net网络架构,借助卷积层捕捉短序列模式,通过Transformer模块建模长距离依赖关系,实现了对100万个DNA碱基对的高效处理。模型包含序列编码器、Transformer模块、成对交互模块、解码器和任务特定输出头五个核心组件,可生成一维和二维的序列表示,分别用于基因组轨迹和染色质接触图的预测。

在训练过程中,研究团队采用预训练和蒸馏两阶段策略ENCODE、GTEx、4D Nucleome和FANTOM5大型公共联盟数据进行训练这种训练策略使得AlphaGenomeNVIDIA H100 GPU上单次预测耗时不到一秒,极大地提高了大规模变异效应预测的效率。

接下来,研究团队在人类和小鼠基因组中对AlphaGenome进行跨模态基准测试。

24项基因组轨迹预测任务中,AlphaGenome表现出色,在其中22项中性能超越外部模型。如在基因表达预测方面,与多模态模型Borzoi3相比提升17.4%染色质构象方面,接触图谱相关性较Orca提升6.3%转录起始轨迹方面,PRO-cap信号预测相关性ProCapNet8提升15%在可及性上优于ChromBPNet10

26项变异效应预测评估任务中AlphaGenome同样性能优异,24项中优于外部模型。以剪接变异效应预测为例,是首个能同时预测剪接位点、剪接位点使用情况和连接位点的系统。在ClinVar致病性变异预测等多个基准测试中,其复合评分表现突出,在6项基准测试中达到了state-of-the-art SOTA)水平。

对于基因表达调控相关任务,AlphaGenome在表达数量性状位点(eQTL)效应预测上优势明显,其对eQTL效应大小和方向的预测准确性均超越了Borzoi等模型。在染色质可及性和转录因子结合变异预测中,AlphaGenome在多种族的caQTL、dsQTL和bQTL评估中均实现领先性能。

图2.AlphaGenome与其他方法的比较

解析T细胞急性淋巴细胞白血病的致癌机制AlphaGenome精准重现TAL1基因三种致癌变异分子效应5'新增强子突变内含子单核苷酸变异3'新增强子等三类变异可通过上调TAL1癌基因表达发挥作用,展现了其在解析复杂变异机制方面的能力。

图3.AlphaGenome解析跨模态的变异效应

最后,研究团队还进行了消融实验,以验证对AlphaGenome性能有较大影响的关键设计和训练决策结果显示,1 bp分辨率训练效果最佳,尤其适用于剪接和可及性等精细任务1 Mb输入序列训练并结合完整背景预测性能最优蒸馏策略可在保证性能的同时大幅降低预测成本多模态学习则有助于提升模型的整体预测能力。

纪念斯隆凯特琳癌症中心的研究员Caleb Lareau博士表示:“这是该领域的一个里程碑。我们第一次拥有了一个单一的模型,其能够将远程上下文、基础精度和各种基因组任务的最先进的性能统一起来。

AlphaGenome首次实现兆碱基尺度下多模态调控变异的统一预测,大幅提升了变异效应预测的准确性与全面性,为疾病理解、合成生物学功能基因组学研究提供了强有力的工具。虽然该模型当前仍存在远端调控元件预测精度不足、条件特异性效应建模待改进局限未来通过整合单细胞数据、拓展数据模态等研究方向的探索,相信AlphaGenome有望进一步完善,为破解基因组调控密码、推动生命科学研究持续贡献力量。

参考文献:

1.https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome

2.https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章