科研

首页 - 全部文章 - 科研 - Nat Commun | 基于12种癌症类型的多组学数据分析,揭示体细胞结构变异对癌症蛋白质组的影响

Nat Commun | 基于12种癌症类型的多组学数据分析,揭示体细胞结构变异对癌症蛋白质组的影响

在人体内,基因表达通常在细胞中受到严格的调控。但在癌症中这一调节缺失,从而导致基因(包括致癌基因和抑癌基因)广泛异常表达。癌症中体细胞结构变异(SV)源于基因组重排,是通过拷贝数改变(CNA)、基因融合和顺式调控改变导致转录改变的主要驱动因素。已有研究表明,通过全基因组测序(WGS)能够检测影响癌症基因组编码和非编码区域的体细胞SV。

探究癌症中特定体细胞SV事件的真正功能影响,可能会对个体化精准治疗产生积极作用。近年来,基于质谱(MS)的蛋白质组学技术发展迅速,使得在数百种人类肿瘤标本中分析数万种蛋白质特征的表达成为可能。此外,临床肿瘤蛋白质组学分析联盟(CPTAC)等重大科学研究也已产生了基于MS的蛋白质组学分析数据,以及相应的多组学数据。

近日,美国贝勒医学院、阿拉巴马大学伯明翰分校的研究人员在Nature Communications上发表了题为“Global impact of somatic structural variation on the cancer proteome”的文章。研究团队将基于MS的蛋白质组学数据与跨不同癌症类型的WGS、多组学数据相结合,以确定体细胞SV断点模式对附近基因蛋白表达的影响。结果显示,在mRNA水平上与SV相关、受顺式调控改变的数百个基因中,约25%在蛋白质水平上具有类似的相关性。此外,一部分与SV-蛋白相关的基因,与较差的患者生存模式或癌细胞系中基因敲除敏感性相关。

文章发表在Nature Communications

主要研究内容

基因水平SV相关的蛋白质改变

研究团队从多个公共数据库中(如CPTAC、TCGA、ICGC等)收集了1,426例肿瘤患者的WGS和基因表达数据,将其进行汇总、整合构建成WGS-蛋白质组学数据集,共涉及12种癌症类型。与预期一致,肿瘤中基因的蛋白表达与相应的mRNA水平大致相关

通过将蛋白质组学、转录组学数据与基于WGS的SV数据进行整合,研究团队发现,数百个基因显示出与附近体细胞SV断点相关的显著基因表达改变。将SV断点与改变的蛋白表达进行关联分析,发现与表达改变相关的SV断点包括位于基因下游或上游或发生在基因中的断点。此外,在上述1426个肿瘤样本数据集中,更多基因与SV断点呈正相关,而非负相关,前者包括已知的致癌基因,后者包括肿瘤抑制基因
在201个与蛋白质和mRNA均具有显著SV相关性的基因中,其在“ATP水解活性”和“孕酮代谢过程”等生物学过程中富集。相比之下,319个与mRNA而非蛋白具有显著SV相关性的基因则富集到“核糖核蛋白复合体”和“mRNA剪接”相关生物学过程中。

图1. 与体细胞SV断点附近相关的蛋白或mRNA表达改变。来源:Nature Communications

基因融合与蛋白质表达

当体细胞SV断点位于基因内,并与其增加的蛋白质表达相关,这可能代表基因融合。研究团度使用基于RNA-seq的嵌合reads和基于WGS的SV断点整合预测基因融合,结果显示,在RNA-seq检测的9,459个候选融合事件中,3,419个涉及SV断点。在3,419个事件中,大多数涉及了受影响样本中一个或两个基因在mRNA水平的过表达,其中一部分事件也显示出蛋白质的过表达

图2. 结合RNA-seq、WGS和蛋白质组学分析鉴定基因融合事件。来源:Nature Communications

SV相关蛋白表达改变的机制

基于蛋白质-WGS关联分析,研究团队发现在mRNA水平上与基因上调相关的SV中,拓扑关联结构域(TAD)-干扰SV(断点跨越两个不同的TAD)显著富集。在与mRNA过表达相关的TAD-干扰SV中,约66%存在蛋白质过表达。此外,涉及mRNA过表达的SV断点在潜在的增强子劫持事件中富集;SV-mRNA过表达也与逆转录转座子劫持事件相关,其中大多数事件涉及蛋白质过表达。

蛋白质过表达的增强子劫持事件共涉及199个肿瘤样本数据和171个基因,其中有59个基因涉及两个或两个以上的肿瘤样本,包括EGFR和CDK4。研究团队还在151个基因附近的低甲基化区域发现重排,其伴有相应的甲基化降低和蛋白质表达增加。

图3. SV相关蛋白表达改变的机制。来源:Nature Communications

SV相关蛋白质表达改变与患者预后

在WGS-蛋白质汇总队列中,与SV-蛋白质相关的基因亚群也与由超3,000名患者组成的扩展mRNA-WGS汇总队列中的患者总生存率相关。在扩展的队列中,有3,156个基因存在与较差生存率相关的体细胞SV断点模式;有3,476个基因存在与较差生存率相关的基因表达;其中交集基因为679个

研究团队分析了516个与SV-蛋白质表达相关的基因,发现在679个预后不良的基因中有34个具有统计学意义的显著重叠。研究团队在多个扩展转录组数据集中对34个基因进行深入探究,发现其可能共同与较差的患者预后相关联。因此,研究团队假设这34基因集合将代表一个广泛适用、患者预后较差的泛癌症特征。
为验证上述观点,研究团队根据上述34-基因特征,对TCGA中10,224个肿瘤进行了评分。在TCGA中,该特征与较差的患者总生存率相关;在肺腺癌、乳腺癌、儿童脑肿瘤、前列腺癌等转录组数据集中,34-基因特征也与较差患者预后相关

图4. SV相关蛋白表达改变与患者预后。来源:Nature Communications

结 语

综上所述,研究团队将基于MS的蛋白质组学数据与跨1,307个不同组织的人类肿瘤WGS数据相结合,以确定在mRNA水平上影响基因的体细胞SV模式有多大程度反映在蛋白质水平上。研究发现许多与癌症相关的基因在蛋白质和mRNA水平上都有反映。与增强子劫持、逆转录转座子易位、DNA甲基化改变或融合相关的SV与蛋白质过表达有关。将SV与蛋白质改变水平相结合,可优化对患者预后的分类。

参考文献:

Chen, F., Zhang, Y., Chandrashekar, D.S. et al. Global impact of somatic structural variation on the cancer proteome. Nat Commun 14, 5637 (2023). https://doi.org/10.1038/s41467-023-41374-8.

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章