其它

首页 - 全部文章 - 其它 - Genome Biology | 千人全基因组测序构建藏族人群基因组参考图谱,助力发掘藏族人群高原适应基因

Genome Biology | 千人全基因组测序构建藏族人群基因组参考图谱,助力发掘藏族人群高原适应基因

藏族人群对高海拔环境的遗传适应是现代人适应性进化最经典的案例之一。遗传学和考古学研究表明,藏族祖先早在旧石器时代就在青藏高原定居,一千多代的自然选择使得藏族人群积累了丰富的适应高原环境的基因突变,已知的适应性特征包括较低的血红蛋白水平、更强的低氧通气反应、更好的心肺功能和更好的生殖活力等。近年来,已有许多研究利用全基因组测序(WGS)寻找藏族人群基因组中的高原适应基因,共报道了682个基因,但只有EPAS1和EGNL1两个基因能成功重复,其他基因的选择性信号仍不准确。此外,目前已发表的关于以上两个基因的遗传关联分析和功能实验数据似乎只解释了一小部分适应性特征,包括相对较低的血红蛋白水平,而其他适应性特征相关的基因仍未被发现。当前藏族人群基因组数据具有样本量小、低变异密度、检测方法单一等局限性,为克服这些缺点,需要大规模的WGS数据和综合统计方法来发掘藏族人群基因组中的高原适应基因。

为了全面评估藏族人群高原适应基因,中国科学院昆明动物所与西藏大学、西藏阜康医院等单位的研究团队合作,在Genome Biology发表了题为“Large-scale genome sequencing redefines the genetic footprints of high-altitude adaptation in Tibetans”的研究文章,该研究获得了1001名藏族个体的WGS二代数据,样本覆盖了中国青藏高原的主要人口分布区。WGS数据分析发现了3500万个变异,其中三分之一以上是新发现的变异。利用大规模WGS数据,研究团队构建了一个等位基因频率和连锁不平衡谱,提供了一个藏族人群基因组参考Panel(1000 Tibetan-Genome Panel,1KTGP)。此外,通过多信号综合分析(composite of multiple signals,CMS)方法,重新筛选了藏族人群基因组中的高原适应基因,包括192个基因的4320个变异,这192个基因涉及多个器官和生理系统,支持藏族人群高原适应是多基因效应的假说。其中,4个具有强选择信号的新基因:TMEM132C、ATP13A3、SANBR和KHDRBS2,与藏族人群更好的心肺功能相关。

文章发表于Genome Biology

1001名藏族人的全基因组测序

研究团队招募了来自中国青藏高原的83个不同地理位置(海拔2300–4900米)的1064名藏族参与者,进行WGS测序。经过严格过滤,最终收集了1001名藏族人的WGS二代数据用于全基因组变异检测和下游分析。最终研究人员鉴定了3470万个变异,包括2990万个单核苷酸变异(SNV)和480万个小片段插入和缺失(Indel)。在2820万个双等位基因SNV中,36%是dbSNP数据库中未报告的新型SNV(图1)。

在主成分分析(PCA)中,纳入了来自全球1000基因组计划III期(简称1KGP3)和人类基因组多样性计划(HGDP)的6527名个体,以及33名已发表的藏族人数据。结果显示西藏人显示出与其他东亚人口的密切关系。在东亚人口中,1001名藏族人与33名藏族人紧密地聚集在一起,形成了一个与其他东亚人口不同的群体(图1D),表明藏族人的大规模WGS数据在研究藏族人群的遗传结构方面具有很高的信息量。通过功能注释,研究人员在1001个藏族人基因组中表征了173,345个高影响变异,包括8279个功能缺失突变和164,616个错义突变。值得注意的是,有391个新的错义突变在藏族人群中相对常见(> 3%)。

图1.藏族人群WGS数据,来源:Genome Biology

藏族人群的变异频率和连锁不平衡谱   

大规模WGS数据是构建精细群体基因组架构的理想选择。接下来,研究人员基于1001名藏族的基因序列建立了藏族人群全基因组变异频率和连锁不平衡谱。与之前的西藏WGS数据研究相比,该变异频率和连锁不平衡谱重在检测罕见突变和整个基因组的无偏覆盖(图2A),并通过Hardy–Weinberg平衡(HWE)偏差测试验证了该变异频率谱的准确性。

同时,利用1001个基因组序列,研究团队提供了藏族人群的基因组参考Panel (1KTGP),并使用全球人群参考Panel (1KGP3)评估了1KTGP的插补准确性(图2D、E、F)。结果显示,1KTGP输入的基因型频率与1001 WGS数据高度一致,相比之下,1KGP3估算的基因型频率包含许多snv,与1001 WGS数据有严重偏差。以上结果表明,1KTGP更适合西藏人群阵列数据的插补,这种高分辨率和参考Panel是未来西藏人群研究的宝贵资源。

图2.藏族人群全基因组变异频率谱和连锁不平衡谱,来源:Genome Biology

重新定义藏族人正选择的基因组特征

研究人员通过使用多信号综合分析(CMS)方法,在1001个WGS数据中重新筛选了藏族人群基因组中的高原适应基因。最终筛选出4320个变异,这些变异被称为西藏selection-nominated SNV(TSNS),位于236个独立的基因组区域,由192个先导基因代表,被称为西藏selection-nominated基因(TSNG)(图3A)。在192个TSNG中,34个是此前报道的,另外158个是新鉴定的基因。

研究团队对4320个TSNS进行了功能注释(图3B),其中大部分(75.4%)位于非编码区,632个(14.6%)位于注释调控区。编码区有90个TSNS,包括22个错义突变,20个同义突变,2个终止增益,2个剪接受体,10个有害突变,34个可能良性/良性突变。研究发现,rs79703522是RP11-766F14.2(编码一种在肌肉、心脏和肾脏中表达的功能未知的蛋白)的错义突变,在藏族人中占主导地位(87%),比全球其他人群平均高出59%。

该研究还对192个TSNG进行了功能富集分析,以揭示所涉及的途径、细胞类型/组织、生物学过程、相关疾病、表型特征、器官系统和小鼠敲除表型(图3C)。例如对于细胞类型和组织,这些TSNG在人脐静脉内皮细胞、胎盘和睾丸中显著富集,反映了藏族人在氧感应、发育和生殖活力方面的适应性变化。此外,研究还确定了76个具有大频差的SV,称为西藏富集SV(TESV),包括众所周知的TMEM247和新发现的71个新TESV。

图3.藏族人群基因组中的高原适应基因,来源:Genome Biology

新发现TSNG可解释西藏人心肺功能的适应性

在功能富集分析中前十的TSNG中,除已有报道的6个基因(EPAS1、EGLN1、HLA_DQB1、L3MBTL2、SLC52A3和BICDL1)外,该研究还发现了4个具有强选择性的新基因(TMEM132C、ATP13A3、SANBR和KHDRBS2)。这四个新确定的TSNG与藏族人群更好的心肺功能相关(图4)。其中TMEM132C突变与肺和肺功能有关,ATP13A3突变可能保护藏族人群免受肺动脉高压(PAH)的影响;SANBR突变是睾丸、肺、动脉主动脉、肌肉骨骼和心耳中的一个表达定量特征基因座;KHDRBS2突变与肺功能和房间隔缺损有关。

图4.4个与心肺功能相关的TSNG,来源:Genome Biology

研究团队通过GeneORGANizer分析了192个已鉴定的TSNG如何促进藏族人各种生理系统的高原适应。结果表明,这些TSNGs在多个器官/系统中发挥作用。192个已鉴定的TSNG对藏族人对高海拔地区的遗传适应具有多基因和多效性影响,它们可能在多个器官和生理系统中发挥作用,以提高藏族的生存能力和繁殖成功率。(图5)

图5.192个TSNG的多基因和多效性效应,来源:Genome Biology

综上所述,该研究分析了来自1001名藏族人的大规模WGS数据,实现了全基因组变异的无偏覆盖,构建了精细的全基因组变异频率和连锁不平衡谱,为藏族人群的基因组研究提供了特定的参考Panel 。同时,研究鉴定了一组具有阳性选择信号的高置信度基因(192个TSNG),其中158个是该研究中新报道的基因,4个具有强选择信号的新基因为:TMEM132C、ATP13A3、SANBR和KHDRBS2与藏族人群更好的心肺功能相关。这些基因可能在身体的多个器官/系统中发挥作用,具有多基因和多效性效应,共同作用形成藏族人的高原适应特征。

参考文献:

Zheng W, He Y, Guo Y, et al. Large-scale genome sequencing redefines the genetic footprints of high-altitude adaptation in Tibetans[J]. Genome Biology, 2023, 24(1): 1-25.

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02912-1

(0)

本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!

热评文章