近日,谷歌DeepMind公司推出一种深度学习模型——AlphaGenome,能够更全面、更准确地预测人类DNA序列中的单个变异如何影响基因调控的广泛生物过程。AlphaGenome可分析多达100万个DNA碱基对,以单碱基分辨率预测与调控活动相关的数千种分子特性;并通过比较突变序列和未突变序列之间的预测结果,来评估基因变异的影响。在超20项基准测试中,该模型表现优异、达到或超过了现有最强外部模型的性能,为科研人员提供了从序列进行基因组轨迹和变异效应预测的工具。
据悉,DeepMind将通过AlphaGenome API(https://github.com/google-deepmind/alphagenome),提供预览版AlphaGenome用于非商业研究,并计划在未来发布该模型。
图1. AlphaGenome模型架构、训练机制和综合性能评估
AlphaGenome是首个将多模态预测、长序列上下文和单碱基分辨率统一到单一框架中的模型。AlphaGenome采用了U-Net网络架构,借助卷积层捕捉短序列模式,通过Transformer模块建模长距离依赖关系,实现了对100万个DNA碱基对的高效处理。模型包含序列编码器、Transformer模块、成对交互模块、解码器和任务特定输出头五个核心组件,可生成一维和二维的序列表示,分别用于基因组轨迹和染色质接触图的预测。
在训练过程中,研究团队采用预训练和蒸馏两阶段策略,对ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共联盟数据进行训练。这种训练策略使得AlphaGenome在NVIDIA H100 GPU上单次预测耗时不到一秒,极大地提高了大规模变异效应预测的效率。
接下来,研究团队在人类和小鼠基因组中对AlphaGenome进行跨模态基准测试。
在24项基因组轨迹预测任务中,AlphaGenome表现出色,在其中22项中性能超越外部模型。如在基因表达预测方面,与多模态模型Borzoi3相比提升17.4%;染色质构象方面,接触图谱相关性较Orca提升6.3%;转录起始轨迹方面,PRO-cap信号预测相关性较ProCapNet8提升15%;在可及性上也优于ChromBPNet10。
在26项变异效应预测评估任务中,AlphaGenome同样性能优异,在24项中优于外部模型。以剪接变异效应预测为例,其是首个能同时预测剪接位点、剪接位点使用情况和连接位点的系统。在ClinVar致病性变异预测等多个基准测试中,其复合评分表现突出,在6项基准测试中达到了state-of-the-art (SOTA)水平。
对于基因表达调控相关任务,AlphaGenome在表达数量性状位点(eQTL)效应预测上优势明显,其对eQTL效应大小和方向的预测准确性均超越了Borzoi等模型。在染色质可及性和转录因子结合变异预测中,AlphaGenome在多种族的caQTL、dsQTL和bQTL评估中均实现领先性能。
图2.AlphaGenome与其他方法的比较
在解析T细胞急性淋巴细胞白血病的致癌机制时,AlphaGenome精准重现TAL1基因三种致癌变异分子效应:5'新增强子突变、内含子单核苷酸变异和3'新增强子等三类变异可通过上调TAL1癌基因表达发挥作用,展现了其在解析复杂变异机制方面的能力。
图3.AlphaGenome解析跨模态的变异效应
最后,研究团队还进行了消融实验,以验证对AlphaGenome性能有较大影响的关键设计和训练决策。结果显示,1 bp分辨率训练效果最佳,尤其适用于剪接和可及性等精细任务;1 Mb输入序列训练并结合完整背景预测性能最优;蒸馏策略可在保证性能的同时大幅降低预测成本;多模态学习则有助于提升模型的整体预测能力。
AlphaGenome首次实现兆碱基尺度下多模态调控变异的统一预测,大幅提升了变异效应预测的准确性与全面性,为疾病理解、合成生物学及功能基因组学研究提供了强有力的工具。虽然该模型当前仍存在远端调控元件预测精度不足、条件特异性效应建模待改进等局限,未来通过整合单细胞数据、拓展数据模态等研究方向的探索,相信AlphaGenome有望进一步完善,为破解基因组调控密码、推动生命科学研究持续贡献力量。
参考文献:
1.https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome
2.https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!