文章发表于Nature
2023年6月,该研究团队发表在Science的文章中展示了233种灵长类动物的高覆盖率基因组数据,发现了错义突变的广泛存在。(点击查看此前报道)利用这些物种中大量良性错义突变的新目录,研究团队进一步开发并应用模型来识别蛋白质编码序列中的致病变异,这些变异仅占人类基因组的1%。在这项最新研究中,研究团队通过构建239个灵长类物种的全基因组多序列比对(MSA)来扩展先前的工作,以更好地表征人类基因组中的约束非编码调控序列。
为了鉴定具有灵长类特异性约束的基因组元件,研究人员使用Megahit的测序数据组装了187个灵长类物种的基因组,通过与已发表的52个高质量灵长类动物参考基因组结合,建立了239种灵长类动物的无参考全基因组MSA,代表了所有主要的灵长类谱系,代表86%的属和所有16个科(图1a,b)。
将MSA中可用的灵长类物种数量增加到239种,使系统发育分支长度比之前Zoonomia研究中可用的43种灵长类物种增加2.8倍。研究人员使用phyloP评估了MSA区域全基因组的碱基约束性,发现人类基因组中3.1%的碱基在所有灵长类动物中受到约束,而在相同阈值下,240种哺乳动物中有7.1%的碱基受到约束。
同时,研究团队使用phasstcon在灵长类动物中检测了157Mb的约束序列元件,发现蛋白质编码DNA(包括外显子、启动密码子和终止密码子)在phascons元件中富集程度很高;包含转录区和可及染色质的顺式调控元件(CRE)或转录因子占据的非编码DNA也显著富集。密码子约束具有的周期性模式,该模式在核苷酸水平上可以区分外显子与附近的内含子序列(图1e)。研究人员在灵长类动物中鉴定出有约束证据的179,329个外显子,其中99%的外显子在非灵长类哺乳动物和脊椎动物中广泛约束,在灵长类动物中有2178个特异性约束外显子。大多数灵长类动物的约束外显子(72%)在小鼠基因组的同源区域被注释为蛋白质编码,表明它们不是新进化的编码序列,而是在灵长类动物的选择性约束中发生了进化。以上结果表明,从现有序列进化出新的蛋白质编码基因或外显子是罕见的,而先前存在的外显子的功能重要性增加是一种相对常见但仍然罕见的事件。
图1.239种灵长类动物的MSA,来源:Nature
研究人员在438种细胞类型的120万个DNA酶I超敏位点(DHS)元素的高分辨率图谱中,估计了灵长类和哺乳动物的平均序列约束性。结果发现,在1亿年前分化的物种中,42%的物种存在序列约束证据,11%在灵长类动物中存在显著约束证据,但在哺乳动物或脊椎动物中缺乏约束证据(图2a,b)。
在这些DHS元件中,转录因子的占据阻止了DNA酶I切割,从而在核苷酸分辨率上产生转录因子结合或转录因子结合事件(TFBS)。在360万个TFBS足迹中,30%具有哺乳动物广泛约束证据,8%显示灵长类特异性约束。值得注意的是,66%灵长类动物特异性约束的DHS元件具有在哺乳动物中保守的TFBS,表明调控功能最初是在共同祖先中进化的(图2c)。
图2.具有灵长类动物特异性约束的非编码调控元件的鉴定,来源:Nature
接下来,研究人员探索了现代人类群体中破坏灵长类约束调控元件的基因突变的选择证据。结果发现,预测的灵长类动物特异性元件靶基因的功能缺失突变明显少于预期(图3a)。此外,在非编码灵长类特异性约束元件中观察到突变约束增加(图3b),表明灵长类动物中特有的约束调控元件在人类中具有重要的顺式调控功能。
图3.约束调控元件的特征,来源:Nature
研究人员还在人类基因组中发现了7460万个在239种灵长类动物中完全约束的位点。进一步分析发现,临床表型和复杂性状的精细定位突变在所有类别的远端可及染色质元件和足迹中都得到了富集,包括具有灵长类特异性约束的突变(图4a)。影响高度约束基因表达的变异倾向于在更深度约束的DHS元件和足迹,而影响约束较少的基因表达的突变往往驻留在具有较新约束的元件上(图4b)。CRE中12%的精细映射突变仅在灵长类动物中受到约束,而在胎盘哺乳动物中没有受到约束,有93个可能致病的调控突变与人类复杂性状和临床表型相关。
图4.在受约束的非编码CRE中富集复杂性状变异,来源:Nature
研究团队通过将239种灵长类动物的基因组(包括187种新组装的灵长类动物),鉴定了数十万个约束非编码序列元件。这些CRE是独特的进化记录,提供了一个视角来观察导致物种近期进化的机制。研究发现,许多以前没有显示序列约束证据的人类CRE实际上只在灵长类动物中受到限制,这大大扩展了人类基因组中已知的约束非编码元件的数量。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!