科研

首页 - 全部文章 - 科研 - Nature发布15万人全基因组测序研究成果,揭示多个罕见变异的性状关联

Nature发布15万人全基因组测序研究成果,揭示多个罕见变异的性状关联

近年来,通过对具有丰富表型的大队列进行全外显子组测序(WES)和全基因组测序(WGS),人们对人类基因组序列的多样性如何影响表型多样性有了深入的认知。英国生物银行(UKB)通过对所有参与者进行WGS分析,平均深度至少为23.5×,记录了英国50万参与者的表型变异数据,并且报告了基于150119个个体WGS的第一个数据发布,包括大量的序列变异,例如单核苷酸多态性(SNP)、短插入或删除(indels)、微卫星和结构变异(SV)。但WES局限于已知的编码区域,只揭示人类基因组中很小的一部分(2-3%)序列变异。

近日,冰岛雷克雅未克大学联合deCODE Genetics公司、安进公司等团队对来自UKB的150119个个体的WGS数据进行分析,重点介绍了发现的具有较大影响的罕见变异性状关联,这些信息是WES和SNP阵列数据集难以鉴定或无法鉴定的。这是迄今规模最大的全基因组测序工作。该研究结果已发表Nature上,文章题为“The sequences of 150,119 genomes in the UK Biobank”。

文章发表在Nature

研究团队在WGS数据中发现585,040,410个SNP,代表了所有可能人类单核苷酸多态性的7.0%。在基因组中可用短序列reads映射的区域,相当于平均每4.8 bp存在一个SNP。研究观察到所有可能常染色体CpG>TpG变异的81.5%,11.8%的其他碱基转换,4.0%的碱基颠换。研究人员将分析了胚系17345,777个常染色体CpG二核苷酸甲基化,在89.1%的CpG甲基化中发现碱基转换变异。由于CpG突变非常饱和(图1),碱基转换与颠换的比率(1.66)低于在较小WGS集和从头突变研究发现的。

图1.UKB中序列变异体的突变类型。

随后,研究团队利用UKB的序列变异数量在人类基因组的500bp窗口中寻找保守区域。研究团队将每个窗口的变异数制成表格,并将这个数字与给定窗口的七聚体核苷酸组成和基因组中具有序列变异的七聚体的比例及其突变类别的预期数量进行比较。然后,该研究团队为每个500bp窗口分配一个从0(消耗最多)到100(消耗最少)的等级(消耗等级(DR)。正如预期的那样,编码外显子的DR较低(平均DR = 28.4),但大量非编码区域的DR更低(更耗损),包括非编码调控元件。在DR最低的1%区域中,编码区占13.0%,非编码区占87.0%,剪接区、UTR区、基因上下游区域均有过表达(图2)。DR随编码外显子距离的增加而增加。在去除编码外显子后,在DR评分最低和最高的1%区域中,发现GWAS变异的过度表达分别为3.2倍和0.4倍,表明DR评分能够用于GWAS分析。

图2.功能重要区域。

分析显示,平均每个单倍体基因组携带3410,510个SNP和indel替代等位基因(图3)。由于目前的人类参考基因组主要来自欧洲祖先的个体,因此大量的变异通常在欧洲以外的群体中发现。其中,非洲个体携带的替代等位基因数量最多。该研究团队构建了队列特异性DR,发现非洲个体的外显子耗损比欧洲和亚洲个体更大。来自欧洲、非洲和亚洲队列的个体平均分别有1330、9623和8340个单个(singleton)变异。在欧洲个体中,每个基因组发现新变异的预期数量仍然很大。这种情况很大程度上可能由于部分地区的密集抽样导致。

图3.突变调用集。

研究团队检测评估了GraphTyper SNP/indel、微卫星和SV数据集,分别与欧洲、非洲和亚洲队列中总共8180、1291和459种表型相关,强调了在WES或SNP阵列数据中不容易识别的表型特征。同时,研究团队使用Manta确定了每个个体中的SV,使用GraphTyper50对得到的895,055个SV进行基因分型,其中637,321个被认为是可靠的。
此外,研究团队利用popSTR54在150119个WGS个体的2536688个微卫星位点上鉴定出14321,152个等位基因,这些个体平均携带810,606个非参考微卫星等位基因。在UKB队列中,每个个体携带的非参考等位基因数量与该研究中其他变异类型的分布相似。微卫星是人类基因组中突变速度最快的变异之一,也是GWAS中通常被忽视的遗传变异来源。
deCODE Genetics创始人、论文共同通讯作者Kari Stefansson表示:“该研究提供的变异类型和数量将彻底改变我们识别和表征对人类多样性具有重要意义的基因间序列的能力,无论是对疾病风险和治疗反应还是其他一些特性。”
综上所述,该研究团队对来自英国生物银行的150119个个体的全基因组测序分析。分析表明,编码外显子代表了基因组中受强序列保守作用的一小部分区域。该研究发现了895055个SV和2536688个微卫星,这些变异通常被排除在大规模全基因组测序研究之外。利用这一强大的新资源,研究团队在文中阐述多个以往基于WES和预测研究中未发现的具有较大影响的罕见变异性状关联案例。
参考资料:
Halldorsson, B.V., Eggertsson, H.P., Moore, K.H.S. et al. The sequences of 150,119 genomes in the UK Biobank. Nature 607, 732–740 (2022). https://doi.org/10.1038/s41586-022-04965-x
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:,

热评文章