科研

首页 - 全部文章 - 科研 - Nature | 人类遗传学里程碑!首个人类泛基因组草图公布,增加1.19亿个碱基对,准确度超99%

Nature | 人类遗传学里程碑!首个人类泛基因组草图公布,增加1.19亿个碱基对,准确度超99%

自发布20多年以来,人类参考基因组已成为人类基因组学研究的支柱。但目前使用的GRCh38版本存在210Mb的空白,占初级染色体框架的6.7%,缺失的参考序列会导致测序分析结果偏差,将研究限制在参考序列的范围内。2022年3月,端粒到端粒(T2T)联盟完成了人类单倍体基因组的第一个完整序列T2T-CHM13,提供了每个常染色体和X染色体的无缝组装序列,部分核糖体DNA阵列仍有待完全解析。T2T-CHM13直接改善了当前的基因组分析,发现了更多单核苷酸多态性(SNP),更好地代表了人类基因组样本的真实拷贝数变异(CNV)。

虽然T2T-CHM13代表了一项重大成就,但没有一个基因组可以代表物种的遗传多样性。由于参考基因组中缺少多态性结构变异(SV)的替代等位基因,因此在使用短读长测序数据和前期人类参考基因组的研究中,超过三分之二的SV被遗漏了。为了克服参考偏差,研究人员已经开始向泛基因组参考图谱的过渡。2019年,美国国家人类基因组研究所(NHGRI)成立HPRC,目标是为代表人类遗传多样性的泛基因组创建高质量、具有成本效益的二倍体基因组组装。在过去的几年中,泛基因组学方法发展迅速,因此现在提出使用泛基因组学进行普通基因组分析是可行的。

近日,人类泛基因组参考联盟(HPRC)在Nature发表了题为“A draft human pangenome reference”的文章。研究团队对一组个体的基因组进行了测序和组装,提出了人类泛基因组的第一个版本,首次公布了人类泛基因组草图。该草图包含47个不同祖先个体的分相二倍体组装(phased diploid assemblies),覆盖了每个基因组中超过99%的预期序列,基因结构和碱基对水平的准确度超过99%。

新生成的人类泛基因组草图捕获了已知的变异和单倍型,并在结构复杂的位点上揭示了新的等位基因。相对于现有的人类参考基因组GRCh38,新草图增加了1.19亿个碱基对的常染色质多态性序列和1115个基因重复序列,发现约9000万个新增加碱基对来自于结构变异。与基于GRCh38的工作流程相比,使用该泛基因组草图来分析短读长测序数据可以减少34%的微小变异发现错误,每个单倍型检测到的结构变异数量增加104%,使得每个样本中绝大多数结构变异等位基因的分型成为可能。

文章发表在Nature

组装47种不同的人类基因组

首先,研究人员从代表全球遗传多样性的基因组中选择了47个全相二倍体组合,包括29个样本,其长读长测序数据完全由HPRC生成,另外18个样本由其他测序方法获得。研究团队为每个样本创建了一组一致的深度测序数据类型。所有HPRC样本的数据包括PacBio、HiFi和ONT长读长测序、Bionano光学图和高覆盖率Hi-C Illumina短读长测序。为46个HPRC样本生成了平均39.7×覆盖深度的HiFi序列,HiFi读取的N50值平均为19.6kb。

研究人员首先搜索了大规模的错误组装,寻找基因复制错误、相位错误和染色体间错误连接,手动修复了3个大的复制错误和1个大的相位错误,并发现了217个假定的染色体间连接,这些连接中只有一个被人工确认为错误组装,其余的连接涉及到染色体的短臂,这可能是错位、非等位基因转换或其他生物机制导致的结果。

为了评估人工修正错误后的组装结果,研究团队开发了一个自动化的组装质量控制流程,该流程结合了可评估每个组装的完整性、连续性、基本质量和相位精度的方法。含有X染色体的单倍体平均总长度为3.04 Gb,是含有X染色体的T2T-CHM13(3.06 Gb)的99.3%。包含一条Y染色体的单倍体平均总长度为2.93 Gb,反映了性染色体之间的大小差异。NG50的平均值与GRCh38的连续NG50值相当。评估结果表明,该组装流程的高度连续性和准确性。

图1. 47个准确和近乎完整的多样化二倍体人类基因组组装,来源:Nature

注释47个不同的基因组

研究团队还开发了一个新的集成映射分析流程,来注释每个新的单倍体组装中的基因和转录组。在每个HPRC组装体中,鉴定出99.07%已知的蛋白质编码基因和99.42%的蛋白质编码转录组。同时,还鉴定出98.16%已知的非编码基因和98.96%的非编码转录组。将HPRC注释与组装可靠性预测相交叉,99.53%的基因和99.79%的转录组注释完全发生在可靠区域内,表明大多数注释的转录组单倍型在结构上是正确的。为了检测转录组碱基的准确性,研究人员在一组标准转录物中寻找无义和移码突变(每个基因一个代表性转录物),发现每个组装中有25个无义突变和72个移码突变。

此外,在预测的可靠区域内,相对于GRCh38,每个组装平均有36个拷贝数增加的基因,并倾向于罕见的低拷贝CNV,71%的CNV基因出现在单个单倍型中。以往使用测序深度的研究发现,罕见的CNV通常发生在被注释为在SD中富集的区域之外,基因组组装在序列分辨CNV中证实了这一观察结果。总体而言,58个基因在10%或更多的单倍体组合中是CNV,相对于GRCh38,大多数个体扩增了16个基因,其中许多基因具有高度拷贝数多态性,是复杂串联重复的一部分。

图2. 组装基因组的转录组注释,来源:Nature

构建泛基因组草图

为表征泛基因组中的变异,研究团队使用图分解来识别对应于非重叠变异位点的子图,然后将变异位点分为不同类型的小变异(<50 bp)和SV(≥50 bp)。结果发现,每个泛基因组中每种变异类型的数量相似,在MC图中有2200万个小变异,以及MC图中的67,000个SV。(图3b)通过在图中追踪每个个体组合的路径来评估其变异,并在Dipcall定义的基因组区域内发现了相似数量的小变异和SV,在MC图中,每个样本有534万个小变异,每个单倍型平均有16,800个SV。此外,研究人员还量化了44个二倍体基因组中每个基因组对泛基因组增量贡献的常染色体非参比序列的数量。

为了进一步探索通过组装和图形构建捕获的变异体调用的质量,研究人员将泛基因组解码的变异体与通过基于参考基因分型方法识别的变异体集进行了比较,发现变体调用性能都很高。此外,泛基因组草图在捕捉基因组变异方面的表现比基准方法结果要好。

图3. 基于泛基因组的分析显示了不同的变异,来源:Nature

图4.可视化复杂的泛基因组位点。来源:Nature

泛基因组草图的应用

研究获得的泛基因组草图旨在通过消除使用单一线性参考基因组(如GRCh38或CHM13)所固有的映射偏差,广泛改善下游分析工作流程。作为最初的测试案例,研究团队分析了针对泛基因组的映射是否可以提高从短reads中调用小变异的准确性。结果发现,泛基因组方法在寻找小变异方面优于其他方法。

图5. 泛基因组提升短读长数据分析的性能,来源:Nature

总而言之,该研究公开发布了来自47个不同群体的94个从头单倍型组装,这提供了一套全相人类基因组组装,并在许多组装质量水平上优于早期数据。此前的参考基因组仅使用短读长测序,新的参考基因组图谱同时整合了长读长测序数据,能够更清楚地发现结构变化。这些改进是由更好的测序技术和组装算法协调创新驱动的结果。与2001年发布的人类基因组图谱相比,新的基因组参考图谱更具包容性,提供了更完整的人类基因组图像。

Nature同期发表的评述文章指出,人类泛基因组参考图谱是人类遗传学的一个里程碑,它揭示了人类基因组重复区域之间的序列交换如何促进了种群的变异和进化。同时,泛基因组的使用有可能改变人类基因组学,这最终将使人们更容易发现调节身体和临床特征的基因变异,并有望最终服务于人类健康。

文章合作者、圣路易斯华盛顿大学医学院教授王艇表示:“泛基因组图谱的影响是深远的。例如,与人类疾病相关的遗传变异的识别将更加敏感和更具体,将直接改善疾病的诊断和治疗。新的参考基因组也为研究遗传变异的功能提供了基础,这项工作可能会深刻地改变人类遗传学研究。这不是一个项目的结束,而是一个新时代的开始,在生物、生物医学和临床科学中将更有意义地融合人类多样性。新的参考图谱将继续增加、扩展和完善,以准确地描绘我们的基因蓝图——这需要全球的努力。”

文章的共同通讯作者、哈佛大学医学院丹娜-法伯癌症研究所李恒教授,同时在Nature Biotechnology发表了该项目使用的图形组装方法,文章题为“Pangenome graph construction from genome alignments with Minigraph-Cactus”,展示了Minigraph-Cactus泛基因组框架。该框架可直接基于全基因组比对创建泛基因组图谱,并能够扩展到人类泛基因组参考联盟的90个人类单倍型。该方法构建了包含所有形式的遗传变异图形,同时允许使用当前的制图和基因分型工具。

此外,同期发表在Nature的另一篇文章“Increased mutation and gene conversion within human segmental duplications”中,展示了泛基因组草图片段重复中的单核苷酸变异(SNV)图谱,表征了数百万个未绘制的SNV,并发现了不同于独特DNA的独特突变谱。与独特的DNA相比,这些不同的突变特性有助于保持片段重复整体更高的GC含量。

在另一篇Nature文章“Recombination between heterologous human acrocentric chromosomes”中,研究人员使用新泛基因组草图数据识别了异源端着丝粒染色体短臂之间的重组模式,为染色体之间的DNA交换机制提供了第一个观察证据。

美国国家人类基因组研究所所长Eric Green认为:“新的泛基因组图谱越来越多地代表了人类的多样性,使科学家和医疗专业人员能够更好地了解影响健康和疾病的基因组变异,这对于推进基因组学领域发展至关重要。”

但挑战依然存在,例如,针对泛基因组中高度可变重复区域的序列比对可以通过更精确的组装或新算法来改进。此外,科学家广泛采用泛基因组可能也需要时间,因为支持泛基因组分析的新方法正在不断开发,科学家通常需要接受培训才能使用它们。

参考资料:

1. Liao, WW., Asri, M., Ebler, J. et al. A draft human pangenome reference. Nature 617, 312–324 (2023). https://doi.org/10.1038/s41586-023-05896-x

2.Hickey, G., Monlong, J., Ebler, J. et al. Pangenome graph construction from genome alignments with Minigraph-Cactus. Nat Biotechnol (2023). https://doi.org/10.1038/s41587-023-01793-w

3.Vollger, M.R., Dishuck, P.C., Harvey, W.T. et al. Increased mutation and gene conversion within human segmental duplications. Nature 617, 325–334 (2023). https://doi.org/10.1038/s41586-023-05895-y

4.Guarracino, A., Buonaiuto, S., de Lima, L.G. et al. Recombination between heterologous human acrocentric chromosomes. Nature 617, 335–343 (2023). https://doi.org/10.1038/s41586-023-05976-y

5.https://www.genomeweb.com/genetic-research/pangenome-reference-provides-inclusive-view-human-genome#.ZF3t-It36M8

(1)

本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!

热评文章