科研

首页 - 全部文章 - 科研 - 人类遗传学研究里程碑!《自然》发布迄今最大规模人类遗传变异数据库

人类遗传学研究里程碑!《自然》发布迄今最大规模人类遗传变异数据库

人类基因组既包括蛋白质编码基因,又包括控制信息的表达时间和程度的调控元件。虽然人类大多的基因和调控元件具有保守性,但是其基本序列确实多变的。因此,每个人的基因组都是独特的。为研究这种多样性并以前所未有的规模捕获大批个体之间的变异程度,来自多个国家的研究团队联合开发了基因组聚合数据库(gnomAD)。

近日,顶尖学术期刊Nature以封面文章形式发表了gnomAD的系列研究成果,包括6篇Nature(4篇研究论文),1篇Nature Medicine,2篇Nature Communications。据文章介绍,gnomAD整合了15,708个完整基因组和125,748个外显子组,是迄今为止最大规模的人类遗传变异数据库。该系列研究成果展示了目前存在的不同类型的变异,并揭示了潜在的功能影响,相关信息如何帮助识别引起疾病的突变,以及确定潜在的药物靶标的优先级。

据悉,该项目由100多个研究人员合作贡献了超过3PB的原始数据,并将其处理为35 TB的高质量变异数据。gnomAD中包括来自欧洲,拉丁裔和非裔美国人、南亚人、东亚人、阿什肯纳兹犹太人和其他人群的外显子组和基因组数据。这些数据集主要是从成人病例对照研究中获得的,每个病例都经过了统一处理。

图:从141,456人的变异中量化了突变谱。来源:Nature

gnomAD研究共报告了2.41亿个小遗传变异(单核苷酸变异、短插入/缺失变异)和335,470个结构变异(至少50个碱基对的DNA重排)。在全外显子组测序数据中检测到443,769个蛋白编码基因中的预测功能缺失(pLoF)遗传变异。这些是遗传变体,因为移码突变或外显子剪接变体,预测会过早截断蛋白质或大幅改变蛋白质序列。此外,研究团队在gnomAD至少一个个体中发现了1,815个基因的双等位基因pLoF变体(一个基因的两个拷贝都可能失活),表明人类可以忍受这些基因或其功能的丧失。

gnomAD的前身是2016年公开的外显子组聚合联盟(ExAC),该项目专注于描述蛋白质编码区域的遗传变异。目前,gnomAD团队已进一步扩展这一资源,并最近发布了gnomAD v3,其中包含71702个基因组。随着样本数量的增加,研究人员能够更好地检测罕见的遗传变异,包括功能丧失的变异,而全基因组测序数据的加入将使超出蛋白质编码范围的变异分析成为可能。

第一篇Nature概述文章题为“Themutational constraint spectrum quantified from variation in 141,456 humans”。该文章概述了基因组聚合数据库(gnomAD),其包含了125,748个全外显子组和15,708个全基因组测序数据集中的预测功能丧失变异体目录。在筛选出由测序和注释错误引起的假象后,研究团队确定了443,769个高可信度预测的功能丧失变异。使用改进的人类突变率模型,研究人员对人类蛋白质编码基因进行了分类,并证明其可用于提高常见和罕见疾病的基因发现,并揭示了影响这些人类蛋白质编码基因的突变约束条件。

来源:Nature

第二篇Nature文章题为“Evaluatingdrug targets through human loss-of-function genetic variation”。研究团队对gnomAD中来自125,748个外显子组和15,708个全基因组的预测功能丧失变异进行了分析,报道了有关使用人类功能丧失变体评估候选药物靶标的三个关键发现。第一,即使是不容忍功能丧失变异的必需基因,也可以作为抑制药物的靶标且非常成功;第二,在大多数基因中,功能丧失的变异非常罕见;第三,自动的变体注释和过滤功能强大,但手动管理对于消除伪影仍至关重要。以上发现为人类基因敲除研究提供了路线图,并为疾病研究和药物靶点选择提供了指南。

来源:Nature

第三篇Nature文章题为“A structural variation reference for medical and population genetics”。该研究介绍了gnomAD中由全球不同群体(54%非欧洲人)的14,891个基因组构建的序列解析SV的参考。研究发现了富含433,371个SV的资源库,并据此估计SV占每个基因组所有罕见蛋白质截短事件的25 ~ 29%。该研究发现自然选择与破坏性SNV和破坏或复制蛋白质编码序列的稀有SV之间有很强的相关性,表明高度不耐受功能丧失的基因也对突变量增加敏感。此外,该研究在3.9%的样本中发现了非常大(超过1Mb)的稀有SV。

来源:Nature

第四篇Nature文章题为“Transcript expression-aware annotation improves rare variant interpretation”。研究团队手动处理了gnomAD中单倍型致病基因的假定功能丧失(pLoF)变体,证明了这一悖论的一种解释涉及mRNA的可变剪接,其允许基因的外显子在不同细胞类型中以不同水平表达。同时,研究团队开发了一种转录级别的注释指标,称为“跨转录表达比例”,可用于量化变体的亚型表达。该研究的注释快速、灵活、可泛化,任何变体都可以使用任何亚型表达数据集进行注释,对于罕见病的遗传诊断,复杂疾病中稀有突变负荷的分析以及治疗具有宝贵的价值。

来源:Nature

发表在Nature Medicine的文章题为“The effect of LRRK2 loss-of-function variants in humans”。研究人员系统分析了来自gnomAD 141,456人,以及UKBiobank、23andMe样本库中的LRRK2 pLoF变异。经过严格的筛选,该研究确定了LRRK2中1,455个具有高度可信的pLoF变体的个体。结果显示LRRK2中的杂合pLoF变体降低了LRRK2蛋白的水平,但这些与任何特定的表型或疾病状态均不密切相关,证明大规模基因组数据库和人类功能丧失型携带者表型,对于药物发现中靶标验证的价值。

来源:Nature Medicine

发表在Nature Communications 的文章题为“Characterising the loss-of-function impact of 5’ untranslated regionvariants in 15,708 individuals”。在这项系统的全基因组研究中,研究团队使用15708个全基因组序列,发现产生新上游起始密码子的变体和破坏现有uORF终止位点的变体处于强烈的负选择之下。对于不耐受功能丧失变体的基因,其上游产生的变体,这种选择信号明显更强。最后,该研究确定了uORF修饰可能代表重要疾病机制的特定基因,并报告了神经纤维瘤中NF2上游的新型uORF移码变体。研究结果突显了uORF干扰型变体是一种未被充分认识的功能类变体,它可导致人类的渗透性疾病,并证明了大规模群体测序数据在研究非编码型变体中的作用。

来源:Nature Communications 

另一项发表在Nature Communications的文章题为“Landscape of multi-nucleotide variants in 125,748 human exomes and15,708 genomes”。该研究系统分析了gnomAD中125,748个全外显子组和15,708个全基因组的多核苷酸变异(MNV),并鉴定出1,792,248个MNV,其组成变体位于彼此2 bp范围内,包括18,756个变体,对蛋白质序列具有新的综合作用。最后,研究团队估计了已知突变机制对MNV产生的相对影响,证明单体型感知变体注释的价值,并完善了对MNV的全基因组突变机制的理解。

来源:Nature Communications 

各界专家观点

同一天,Nature发表了社论文章,系统总结了这些研究成果,同时指出这些具有里程碑意义的研究确定了人类生存依赖以及不依赖的基因,并着重指出了在使数据集更能代表世界人口方面面临的挑战。

来源:Nature

生物技术公司Inscripta的遗传学家Deanna M. ChurchNature在线发表点评文章指出,迄今为止,大量的基因组测序和分析工作为了解人类遗传变异提供了最全面的数据和工具,gnomAD 将改变我们对个体基因组的解读方式。这些工作揭示了我们所缺少的关于人类变异的信息,并提供了帮助我们在群体和个人层面更好地理解基因组的工具。这些该资源对于每个领域的生物学家来说都是宝贵的。

gnomAD项目的科学负责人、Broad研究所Daniel MacArthur表示:“这些研究代表了来自gnomAD联盟的第一批重大发现。该数据库的强大之处在于其庞大的规模和人口多样性。”

Broad研究所、Massachusetts总医院的Konrad Karczewski表示:“到目前为止,gnomAD为我们提供了对变异敏感基因谱的最佳观察,并为支持常见和罕见疾病中的基因发现提供了资源。”

参考资料:

1.Nature系列文章链接

https://www.nature.com/articles/s41586-020-2308-7

https://www.nature.com/articles/s41586-020-2267-z

https://www.nature.com/articles/s41586-020-2287-8

https://www.nature.com/articles/s41586-020-2329-2

https://www.nature.com/articles/s41591-020-0893-5

https://www.nature.com/articles/s41467-019-10717-9

https://www.nature.com/articles/s41467-019-12438-5

2.Nature报道:The Genome Aggregation Database (gnomAD)

https://www.nature.com/immersive/d42859-020-00002-x/index.html

3.Nature社论:Amilestone in human genetics highlights diversity gaps

https://www.nature.com/articles/d41586-020-01551-x

4. GnomAD Consortium Details Range of HumanGenetic Variation From Large Dataset

https://www.genomeweb.com/sequencing/gnomad-consortium-details-range-human-genetic-variation-large-dataset#.Xs8P-not1PY

(2)

本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!

热评文章