科研

首页 - 全部文章 - 科研 - Nature | 可准确预测基因变异致病性的深度生成模型——EVE,性能优于已有算法

Nature | 可准确预测基因变异致病性的深度生成模型——EVE,性能优于已有算法

导 读

人类基因组测序数据的指数级增长,凸显了人类群体中巨大的遗传变异信息。了解这些基因变异与疾病的相关性有助于改善当前的医疗决策,并推动人类群体基因组学和临床数据方面的大规模关联研究。但将基因组中的特定变化与疾病表型联系起来仍然是一个巨大的挑战,因为人类群体中的变异数量远远超过了目前研究的数量。

基于这一挑战,研究人员开发了新的实验技术,可以并行评估数千个突变的影响,并对这些结果进行解读,以便指导临床决策。然而,这些技术对于数千种蛋白质的研究是不现实的,特别是不能扩展到基于变体的关联分析,并且严重依赖于与人类疾病表型相关或至少与人类疾病表型相关分析的可用性。
近日,来自哈佛医学院和牛津大学等单位的联合研究团队在Nature在线发表了题为“Disease variant prediction with deep generative models of evolutionary data”的文章。在该研究中,研究人员基于机器学习构建无监督生成模型,重新评估了基因组进化信息的临床价值。这种仅根据进化序列训练的人类遗传变异分类计算方法在预测变异致病性方面优于当前最先进的计算方法,并且与高通量实验的预测一样准确。该研究表明,进化信息模型可以为基因变异提供有价值的独立证据,或将在未来的研究和临床工作中具有广泛应用。

文章发表在Nature

主要研究内容 

从进化角度预测基因变异致病性

该团队开发的变异效应进化模型(Evolutionary Model of Variant Effect, EVE)通过物种间序列变异的分布来了解错义变异的致病倾向。在第一步中,通过使用表达性深层生成模型学习每个蛋白质的氨基酸序列分布,从进化过程中的自然序列中获取信息,包括位置之间的复杂依赖关系。VAEs已经成功地学习了跨多个领域的复杂高维分布数据,包括对蛋白质功能的预测。在对进化序列进行训练后,研究人员通过从VAEs学习到的近似后验分布中取样,评估了每个单一氨基酸变异相对于野生型的相对可能性,并称之为“进化指数”。当将这一进化指数与临床标记进行比较时,发现其在区分致病性标记和良性标记的指标在蛋白质中明显一致,提示可以使用无监督的方法来推断致病性。之后研究人员将变量分为三类:良性、不确定或致病性。

图1. 建模策略示意图,来源:Nature

研究人员将EVE模型应用于3219个人类基因上,这些基因在临床上与疾病相关。结果显示,该模型可以预测所有基因的所有标记变体的临床意义(AUC高达0.91),包括60个临床应用基因。

同时,EVE在预测已知临床标签方面优于所有监督和非监督方法。将EVE模型预测与10种蛋白质的40000个实验数据进行比较,结果表明,EVE优于所有其他方法。

图2. EVE能准确预测致病变异,来源:Nature

EVE和实验预测准确性相当

接下来,研究人员评估了不同方法计算预测和实验预测的结果。对于在ClinVar中具有高质量标记的5个基因(BRCA1、TP53、PTEN、MSH2和SCN5A),EVE在预测变异临床意义方面的总体表现与专门设计用于预测变异致病性的实验算法相当,甚至更好。例如,EVE和实验均支持TP53中变异R337H和R337C的良性评分,MSH2中变异S554N/T、D660G和I774V的良性评分,以及PTEN评分中的15个变异。以上分析表明,EVE预测的表现与高通量实验的预测一样好,表明将实验重点放在EVE表现不好的基因上可能是更加有意义的。

图3. EVE在预测变异的临床注释方面与功能性实验相当,来源:Nature

对3600万变种的预测

研究人员也对3219个疾病相关基因中3600万个单一氨基酸变体的连续EVE分数进行了评估。在剔除25%最不确定变异以将准确度保持在90%左右后,研究人员提供了总计约2700万个变异和迄今为止在人类中发现的80多万个变异(约64%)的注释。

图4. EVE分类和其他证据来源的结合,来源:Nature 

结果显示,EVE评分在蛋白质中的分布突出了高致病性的集群,遵循功能重要性的预期趋势,包括疏水核心、配体结合和活性位点。对于错配DNA修复复合物MSH2–MSH6(与Lynch综合征和大约20%的散发性癌症相关),EVE致病信号对于靠近结合ADP和DNA的变体很强。

图5. SCN1B的VE致病力评分热图和3D结构,来源:Nature

结 语

研究物种间的序列保守模式可以深入了解物种内变异的结局,包括人类基因变异及其与疾病的关联。通过将机器学习的最新发展与来自不同生物体的测序数据结合,该研究提供了更为精确的注释和预测,并且能够在足够大的范围内提高人们对基因变异临床意义的总体认知。
该研究证明,仅在序列比对上训练的深层生成模型可以在变异分类上实现最先进的性能,同时避免了常规影响监督方法的问题。不仅生成了更为准确的预测数据,还能提供独立于其他大规模研究的补充证据来源,并在逐个基因的基础上进行验证时产生了数量级的范围增益。

参考文献:

1. Frazer, J., Notin, P., Dias, M. et al. Disease variant prediction with deep generative models of evolutionary data. Nature 599, 91–95 (2021).

2. Karczewski, K. J. et al. The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581, 434–443 (2020).

3. Trenkmann, M. Putting genetic variants to a fitness test. Nat. Rev. Genet. 19, 667 (2018).

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章