科研

首页 - 全部文章 - 科研 - 陈璐/毛亚飞Genome Biol发文:利用完整参考基因组T2T-CHM13精细分析现代人类中的尼安德特人渗入序列

陈璐/毛亚飞Genome Biol发文:利用完整参考基因组T2T-CHM13精细分析现代人类中的尼安德特人渗入序列

古人类基因序列不仅记录了人类的遗传历史,还持续影响着现代人类的生理和健康。为了更好地了解古人类混合的功能、表型和进化影响,鉴定现代人基因组中渗入的古人类基因序列至关重要。基因渗入是遗传变异的一个重要来源,能够促进物种的适应性进化。截止到目前,大多数古人类基因渗入的研究主要依赖于GRCh37参考基因组。2022年,第一个完整的人类参考基因组T2T-CHM13成功构建(点击查看报道)。该参考基因组纠正了以往基因组序列的许多错误,解锁了人类基因组中结构最为复杂的一些区域,并填补了GRCh38缺失的8%人类基因组序列,为人类基因组学提供了更准确的参考。但T2T-CHM13对现代人中古老基因渗入模式的影响在很大程度上仍未被探索。

近日,复旦大学陈璐研究员联合上海交通大学毛亚飞副教授Genome Biology发表文章“A refined analysis of Neanderthal-introgressed sequences in modern humans with a complete reference genome”,报道了利用完整参考基因组对现代人类中尼安德特人渗入序列的研究结果。研究团队精细化了现代人类中古人类变异的检测,发现T2T-CHM13的使用显著改善了古人类reads的映射,使渗入序列的检测更加准确,强调了利用T2T-CHM13参考基因组的重要性,并为古人类混合研究提供了新见解。此外,研究团队开发了针对尼安德特人序列的可视化数据库ASH (www.arcseqhub.com),提供了一个用户友好的平台来探索古基因组片段。

研究团队下载了GRCh37版本中可获得的阿尔泰尼安德特人和丹尼索瓦人个体的高覆盖率原始测序reads,将它们重新映射到三个人类参考基因组(GRCh37、GRCh38和T2T-CHM13)上。同时,研究分析了来自1000基因组计划(1KGP)中的现代人类基因组样本,测序覆盖率≥30×。随后应用IBDmix在整个基因组(古代和现代基因组)中识别尼安德特人的基因渗入序列,并在T2T-CHM13中检测到群体特异性的适应性基因渗入信号。

图1.研究流程。

分析发现,T2T-CHM13显著改善了古代基因组的reads映射和变异检测,提高了基因渗入分析的准确性。与GRCh38相比,额外的1.9×107(1.03%)个测序reads被映射到T2T-CHM13。与原始的GRCh37参考相比,T2T-CHM13显著提高了所有染色体的映射率(图2a),且T2T-CHM13的覆盖均匀性更好(图2b)。

与GRCh37相比,IBDmix分析在GRCh38和T2T-CHM13中发现了更多的尼安德特人序列,这种富集在人群中是一致的(图2c)。与GRCh38相比,T2T-CHM13中独特鉴定的尼安德特人序列约为51.3Mb(图2d),其中约1.68Mb位于T2T-CHM13新解析的区域(8%基因组)内。由于算法差异使得GRCh37与GRCh38和T2T-CHM13的可比性较差,该研究的后续分析主要集中在GRCh38和T2T-CHM13之间的比较。

图2. 三个参考基因组中尼安德特人祖先序列的比较。

研究团队在T2T-CHM13 callset中发现了2087个新的尼安德特人基因渗入片段,跨越了约51.3Mb的基因组。其中242个片段(约15.92 Mb)与GRCh38中鉴定的渗入序列不重叠,称为“独立序列”。其余1845个片段(约35.35 Mb)扩展了GRCh38中已经存在的渗入序列,称为“延伸序列”(图3a)。

研究团队认为,T2T-CHM13和GRCh38片段之间的微小遗传差异可能会影响reads映射质量和基因分型准确性,可能导致通过IBD推断检测古代渗入信号的差异。为此,研究团队鉴定了整个基因组的遗传变异,长度超过10bp的变异被系统筛选并与T2T-CHM13新的渗入片段相交。分析显示,1564个片段(占总数的74.94%)跨越约40.31Mb(占总片段基因组覆盖率的78.57%)与4196个(10bp-1.16Mb)变异重叠(图3c)。研究发现,尼安德特人的基因渗入信号跨越了MUSK基因,这与先天性肌无力综合征有关(图3d)。研究表明,T2T-CHM13为以前无法检测到的古老渗入信号提供了新见解。

图3.T2T-CHM13与GRCh38遗传变异重叠的独特渗入序列的富集。

此前研究报道了适应性古人类基因渗入,这些区域是特定人群中携带高频古人类单倍型的区域。在该研究分析的基因组中,GRCh37、GRCh38和T2T-CHM13中分别识别出87个、87个和94个群体特定的高频尼安德特人单倍型。其中,约90%(84/94)的T2T-CHM13单倍型与其他参考文献中发现的单倍型一致。在T2T-CHM13中特有的十个新的特定人群适应性单倍型中,两个为非洲特有,两个为非非洲特有(图4b)。这四个单倍型跨越了新近发现与尼安德特人适应性基因渗入相关的基因组区域,富集了参与代谢、离子通道功能和嗅觉过程的基因,包括FUT8、OR14A16、KCNK2和KCTD3(图4b)。此外,研究团队还鉴定出四个新的高频率单倍型,在T2T-CHM13中被非洲人和欧洲人共享,以及两个被非洲人和东亚人共享,涵盖了癌症代谢中富集的基因,例如CTNND2、FHIT和LINC01507(图4b)。

图4.T2T-CHM13中新的特定人群高频渗入序列。

为了促进古人类混合研究,研究团队通过整合不同人群(1KGP)2504个样本中的985,148,1,006,918和1,037,491个尼安德特人序列,以及在GRCh37、GRCh38和T2T-CHM13中鉴定的相应尼安德特人渗入信号,开发了数据库ArcSeqHub(ASH),能够可视化不同现代种群的基因渗入片段。

更完整、更准确的T2T-CHM13参考基因组为重新评估和推进现代人群中古基因渗入的理解提供了独特机会。该研究证明了T2T-CHM13参考基因组在推进古人类混合研究中的关键作用,并强调了该参考基因组的应用优势。T2T-CHM13为古人类的变异、功能性和进化意义提供了新的见解,将有助于更清晰地解析人类进化和基因渗入对现代人类健康的影响。

论文原文:

Liang, SA., Ren, T., Zhang, J. et al. A refined analysis of Neanderthal-introgressed sequences in modern humans with a complete reference genome. Genome Biol 26, 32 (2025). https://doi.org/10.1186/s13059-025-03502-z

(0)

本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!

热评文章