当前,关于疾病遗传机理的研究大多数集中在2万个已知基因和周围调控这些基因的DNA上。然而,这些遗传信息仅占人类基因组3.2亿个碱基对的1%,其余99%的序列则通常被认为是“暗物质”甚至“垃圾DNA”。近年来,一些研究打破了这种认知。科学家逐渐发现,很多引发疾病的DNA突变并不是位于基因上,而是存在于基因组中99%曾经被认为是“垃圾DNA”的区域。尽管科学家已经认识到,这些大量的DNA片段实际发挥着重要作用,但是迄今为止科学家仍然无法大规模破译其功能。
在近日发表于Nature Genetics期刊的一篇文章中,由美国普林斯顿大学领导的研究团队利用人工智能技术,成功破译了自闭症患者“垃圾DNA”区域基因突变所具有的功能性影响,首次明确证实非遗传性、非编码DNA突变能够导致复杂的人类疾病或障碍,为探索人类基因组中“暗物质”带来了新的突破。此外,研究人员表示,这种强有力的方法能够普遍适用于探索任何疾病的遗传影响。
此前,许多研究都集中在识别基因本身的突变上。基因本质上其实是制造构建和控制身体多种蛋白质的指令。因此,基因突变会导致蛋白发生改变,进而对功能造成影响。然而,其他类型的DNA突变也会影响基因调控的方式。在没有自闭症家族史的个体中,蛋白质编码区域的突变最多占自闭症病例的30%。有证据表明,自闭症引发的突变一定也发生在基因组的其他区域。虽然这些区域的突变并不会影响基因编码何种物质,但是会对基因编码物质产生的时间和数量带来影响。研究人员介绍,迄今为止,还没有方法能够直接在整个基因组上找到调控基因的DNA,也无法预测这种调控性DNA突变如何引起复杂疾病。
本次发布的最新文章首次证明了调控性DNA突变可以引起复杂疾病。论文领导者、普林斯顿大学计算科学和基因组学教授Olga Troyanskaya表示,这项工作的意义超越了自闭症,“这种方法为任何疾病的此类分析提供了一个框架。”对于很多无法确定遗传原因的疾病,例如神经系统疾病、癌症、心脏病以及许多其他疾病,该方法尤为适用。“这改变了我们理解这些疾病致病原因的方式。”
在该文章中,研究人员利用一种机器学习方法对1790个家庭的全基因组序列进行了分析。研究招募的每个家庭中都有一个自闭症谱系障碍患儿,而其他成员则正常,即所有患儿都没有家族史。这也意味着其病情的遗传原因是来自自发突变而不是遗传突变。此外,研究算法“slides along the genome”会分析每个碱基对周围的1000个碱基对,直到检测到所有突变。该系统可以预测整个基因组中每个碱基突变产生的影响,最终按优先次序展示可能调控基因的DNA序列以及可能干扰调控的突变。最后,该系统还会根据已知的致病突变进行校正,通过“疾病影响评分”模块评估某个突变影响疾病的概率。利用该方法,研究团队最终从12万个突变中筛选出了影响自闭症患者基因特征的突变。尽管研究结果未能揭示自闭症的确切病因,但为研究人员提供了上千个可能的致病因素。
而在这项成果之前,收集这类信息的传统方法是对每条序列以及该序列上每个可能的突变位点进行繁琐的实验验证。但是这些可能的功能以及突变数量实在太多,每个实验方法需要针对2000多种蛋白互作对每个突变进行检测,然后在各种组织和细胞类型中重复进行这些实验,总计需要进行上亿次实验。其他研究小组曾试图将机器学习应用于靶向DNA片段来加速研究,但未能实现对每个DNA碱基和可能的突变,以及这些突变对全基因组中2000多种调控互作的影响。
未来,Troyanskaya及其研究团队将继续改进和扩展他们的方法。最终,她希望这项工作将改善基因数据用于诊断和治疗疾病及障碍的方式。目前,研究小组正利用这个新方法对多种类型癌症、心脏病和其他疾病的遗传因素进行分析。
参考资料:
1. Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk
2. Artificial intelligence detects a new class of mutations behind autism
3. New causes of autism found in 'junk' DNA
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!