Nat Rev Cancer重磅综述 | 肿瘤蛋白质基因组学研究进展及未来前景

白云科研 2022-04-06

导读

肿瘤蛋白质基因组学（Cancer proteogenomics）是将基于质谱（MS）的蛋白质丰度和翻译后修饰（PTM）信息与临床前肿瘤模型和肿瘤样本的基因组、表观基因组和转录组数据相结合的组学技术。基因组学和表观基因组学为解释可能发生的生物过程提供了基础知识，蛋白质组学是对已经发生事件的汇总和分析（蛋白质及其修饰是生物表型的最终执行者）。因此，蛋白质基因组学将多组学数据整合可帮助揭示新的生物学知识和肿瘤发病机制新见解，从而提高人们对肿瘤恶性转化和预后的理解。

近日，Broad研究所等单位的联合研究团队在Nature Reviews Cancer发表了题为“Cancer proteogenomics: current impact and future prospects”的重磅综述文章，对蛋白质基因组学在肿瘤研究中的最新进展和关键发现进行了系统总结，并描述了蛋白质基因组学中样本收集以及当前用于生成、分析和整合蛋白质组学与基因组数据的技术方法等。总的来说，蛋白质基因组学在转化医学研究和免疫肿瘤学方面的应用正在迅速兴起，对于整合到治疗性临床试验中的前景也是光明且极具潜力的。

文章发表在Nat Rev Cancer

蛋白质基因组学概况

在肿瘤研究中，鉴别驱动突变仍然是一个具有挑战的命题，其主要依赖于疾病复发的统计。由于单个肿瘤中复发性点突变、小片段插入或缺失的数量较少，从而限制了肿瘤患者获得靶向治疗的机会。染色体拷贝数扩增或缺失会影响多个基因，但我们对这种改变的功能后果却知之甚少，且难以建模。此外，靶向治疗耐药性的频繁发展也是限制患者预后的主要障碍之一。针对上述难题，单纯的基因组测序可能远远不够。近期发展的一些免疫肿瘤学方法将肿瘤基因组和免疫系统之间的相互作用进行了关联，并提供了新维度的信息，同时蛋白质组学更是可以在肿瘤微环境与肿瘤细胞的信号转导层面提供更为具象的信息。

蛋白质组学技术主要基于液相色谱与串联质谱联用（LC-MS/MS），目的是识别和量化肿瘤中改变的蛋白质和PTM，并将它们与拷贝数变异、表观遗传沉默、mRNA表达的变化联系起来。因此，基因组和转录分析提供了对基因组改变特征和潜在影响的解读，而蛋白质组学提供了有关蛋白质调节和响应这些变化的信号的直接信息。

更重要的是，基于MS的蛋白质组学还提供了对PTM的深入定量分析，例如磷酸化、乙酰化和泛素化。这些分析可以检测由基因组变化驱动的信号网络改变，并且可以提供影响细胞信号传导、位置、分子复合物形成、翻译和稳定性的修饰相关信息，这些是基因组和转录分析所无法提供的。

因此，蛋白质基因组学有可能为疾病治疗提供重要见解，并在临床环境中用于诊断多种耐药信号及其PTM，并将研究重点集中在可立即用于药物开发的靶点上，或集中精力开发新疗法。近年来，蛋白质基因组学已广泛应用于人类肿瘤分析，其中大部分是在美国国家肿瘤研究所（NCI）——临床蛋白质组肿瘤分析联盟（CPTAC）和国际肿瘤蛋白质组联盟（ICPC）的资助下完成。

图1. 典型蛋白质基因组学数据汇总，来源：Nat Rev Cancer

肿瘤蛋白质基因组学图谱解析

随着乳腺癌、结肠癌和卵巢癌早期蛋白质基因组学研究的发布，一系列针对各种肿瘤类型的蛋白质基因组学图谱研究已经发表。这些研究系统地分析和整合了基因组、转录组、蛋白质组和PTM数据，以进一步了解疾病发病机制并确定每种肿瘤类型的治疗靶点。通过建立通用的统计方法来改进对肿瘤亚型的认识、探索免疫微环境、推断新抗原库、检测DNA、RNA、蛋白质和PTM水平的协调调节，以及蛋白质组特异性或PTM特异性调节，并确定肿瘤驱动因素和治疗靶点。这些已发表的蛋白质组学研究对肿瘤的新维度认知主要包括以下几个层面：

1.疾病机制的深度探索

一组中国结直肠癌（CRC）患者（70例转移性和76例非转移性）肿瘤组织的蛋白质基因组学分析结果显示，原发性肿瘤和转移性肿瘤之间基因突变谱高度一致，但蛋白质组水平有着明显区分，激酶-底物网络互作分析进一步预测了转移性肿瘤的药物敏感性，为精准治疗提供了新靶点。

同时，蛋白质基因组学数据还提供了识别最常见驱动基因TP53和PIK3CA突变的下游信号传导效应的可能。例如对携带这两个突变的乳腺癌（BRCA）患者的肿瘤组织进行蛋白质组学和代谢组学表征发现，在正常样肿瘤的导管原位癌区域发现EGFR和MET的蛋白质共表达，为定义这种不明确的亚型提供了新的组织病理学标志物和可能的治疗方法开发方向，突出了蛋白质基因组学特征对理解肿瘤生物学的重要性。

2.蛋白质组学和磷酸化蛋白质组学揭示新的潜在治疗靶点

前期一些研究证明，肿瘤中蛋白质组学和磷酸化蛋白质组学变化在揭示新的治疗靶点上具有独特优势。通过对来自110名CRC患者配对肿瘤组织和邻近正常组织的蛋白质组学和磷酸化蛋白质组学进行分析，确定了结直肠癌相关蛋白、磷酸位点和激酶活性，包括已知和新鉴定的生物标志物、药物靶点和肿瘤抗原。此外，蛋白质组学数据还将糖酵解增加与CD8阳性T细胞减少相关联，提示抑制糖酵解可能使CRC对免疫检查点阻断（ICB）疗法更加敏感。磷酸蛋白质组学数据还揭示了RB1过度磷酸化在促进结肠癌增殖和抑制细胞凋亡方面的双重作用，突出了通过CDK2抑制来靶向RB1过度磷酸化在该疾病中的独特功效。

3.患者预后的预测

多项研究数据均表明，蛋白质组学数据比其他数据类型能够更好地预测肿瘤患者的生存率。例如，在胶质母细胞瘤患者中，与RNA测序数据相比，蛋白质组学数据与患者生存的相关性更显著；在另一项前列腺癌队列的研究中，蛋白质组数据更能够比任何其他数据类型更好地预测患者的复发风险，并且能够结合基因组或表观基因组特征一步提高预测性能。

图2. 肿瘤蛋白质基因组数据分析揭示不同生物学层面信息，来源：Nat Rev Cancer

4.肿瘤免疫景观的蛋白质基因组学评估

免疫蛋白质组学分析可揭示肿瘤中广泛的免疫细胞浸润水平，其中多个免疫检查点蛋白的一致上调可以解释对抗PD1单一疗法的中等反应率，并为研究高水平免疫细胞浸润肿瘤中的联合检查点阻断提供了基本原理。

结合蛋白质基因组学，可以对肿瘤的免疫景观进行广泛表征，并确定许多潜在的治疗局限性，包括免疫浸润水平高的肿瘤中的抗CTLA4治疗和IDO1抑制。在一项肺腺癌研究中，研究人员强调了STK11突变与低水平免疫细胞浸润的特殊关联，并提示中性粒细胞脱颗粒是肺腺癌STK11突变体中一种潜在的免疫抑制机制，而这种机制仅在蛋白质组学分析中才会显现。在转移性肺腺癌病变组织分析中，研究人员发现干扰素通路与APOBEC诱变和肿瘤异质性有关，表明免疫微环境可能会改变肿瘤的突变格局。

5.多组学重新定义和表征肿瘤亚型

当前，肿瘤亚型主要是使用临床、基因组或转录组学特征进行定义，而多组学方法可以根据潜在的生物学或预后进一步细化或重新定义肿瘤亚型，这种更精细的分型是当前肿瘤研究的一大热点，在未来可能用于临床定制个性化治疗和疗效评估。

在一项肺鳞癌研究中，研究人员确定了五个不同的蛋白质组群，其中两个由氧化还原生物学主导，两个由免疫特征主导，此外还发现了一种新的EMT亚型。进一步的分析发现这种亚型肿瘤可能具有更大的转移潜力，但基于其蛋白组学特征，发现激酶PDGFR和ROR2驱动的分子途径可以作为其治疗靶点。另一项头颈部鳞状细胞癌的多组学分析则将肿瘤分为三个亚型，分别以高染色体不稳定性、基质标志物和免疫标志物为特征，信号通路富集分析分别将三个亚型与CDK抑制剂、EGFR单抗和免疫疗法的高反应性相关联。

总之，肿瘤蛋白质组学研究在解析肿瘤本质上有着独特的见解，尤其是PTM在描绘肿瘤生物学和确定潜在治疗靶点方面有着关键作用。当前的肿瘤临床实践几乎完全由基因组学驱动，蛋白质组学数据是比较欠缺的。目前，人们越来越多地认识到蛋白质组学的临床转化潜力，并在大大推动其在小鼠实验模型系统和临床试验中的应用。蛋白质基因组学的兴起可为肿瘤临床研究增添新维度的信息，在解决与发病机制、药物反应和耐药性有关的问题层面独具优势。

蛋白质基因组学研究中的样本质量

此外，该综述文章还对肿瘤蛋白质基因组学研究中涉及到的样本层面的问题和需要注意的事项进行了探讨。由于蛋白质的特殊生物学特性，所以蛋白质基因组学研究也对样本采集、运输和处理提出了特殊要求，以保证得到高数据质量，反应真正的生物学特征。

虽然蛋白质组在各种条件下相对稳定，并且通常推荐大约1小时处理时间，但磷酸化蛋白质组更具动态性，其在5分钟前后观察到生物学上的应激反应可能都会有差别，因此需要格外注意。

同时，在人体研究中并不能完全轻易消除对样本造成的损伤，但可以通过严格的有条理的前瞻性样本收集程序，以最大限度地减少由此带来的误差。然而，前瞻性样本收集所涉及的费用、复杂性和冗长的耗时可能令人望而却步，而且前瞻性样本通常缺乏某些转化分析所需的长期临床随访和患者结果数据。此外，间质组织、浸润性免疫细胞和其他非恶性上皮细胞类型有时也不可避免地粘在肿瘤标本中，这也是需要考虑的问题。

图3. 蛋白质基因组学中LC-MS/MS工作流程示意图，来源：Nat Rev Cancer

截至目前，尚未开发出用于蛋白质组学和磷酸化蛋白质组学分析的稳健且统一的标准质控品。因此，通常都需要将单独的组织样本分配给对应的基因组和蛋白质组学分析流程。

蛋白质基因组学相关的计算方法和工具

目前，处理原始基因组学数据以识别体细胞和胚系突变、量化拷贝数变异和执行转录组分析的计算工具，通常包括用于序列比对、质量控制、变异识别和RNA定量等方面。用于分析原始LC-MS/MS蛋白质组数据以生成可识别和量化的蛋白质、磷酸位点、乙酰位点和泛素位点的计算工具，包括MS-GF+、Spectrum Mill、MaxQuant、MSFragger、Philosopher、CDAP等。

蛋白质基因组学面临的一个特殊挑战源于数据矩阵中较大程度的缺失值，这是由于肽采样的随机过程与转录组测序相比存在有限的动态检测范围，尤其是在检测基于PTM数据集时，那些在所有样本中不易观察到的单一肽。当然，目前也已经有多个团队提出了针对蛋白质基因组学数据的各种插补策略来解决，有助于缓解数据缺失的问题。

蛋白质基因组学的分析也依赖于多重量化策略的工作流程，同时需要在每个维度的队列中加入共同参考样本，用于提供每个蛋白质、肽或PTM位点相对于队列特异性共同参考的丰度检测。因此，当计算组合这些数据集以校正数据集中的任何群组特定信号时，需要仔细注意，因为肿瘤类型和数据集通常是重叠的混杂变量。

总的来说，蛋白质基因组学数据分析利用了跨越统计学、机器学习和大数据分析等一系列学科的方法和算法，根据其类型主要分为三大类：以序列为中心的方法、蛋白质基因组学内部相关分析和综合建模。

结语

虽然已经有部分关于蛋白质基因组学的相关研究发表，但蛋白质基因组学仍然是一个新兴领域。与基因组学的早期研究相似，通过对数百个肿瘤的批量分析可能会对肿瘤生物学产生重要且可操作的见解，但仍需要更多的数据来识别不太常见或影响较小的致癌过程，以及使用不同的方法探索肿瘤蛋白质基因组学的异质性。

值得注意的是，越来越多的技术复杂的国际性蛋白质基因组学研究也将成为该领域的重要数据资源，国际性的研究能够更广泛地覆盖不同种族和生活环境，从而更好地对肿瘤的蛋白质基因组多样性进行解析。

科学是循序渐进的，当前蛋白质基因组学研究中提出的每一个生物学表征和治疗假设都需要进一步研究和验证。不过，在可预见的未来，随着对更多的肿瘤和肿瘤类型进行蛋白质基因组学分析，更多的PTM得以检查，泛癌蛋白质基因组学研究将获得更多关注，也会越来越多地应用于转化背景下的特定临床问题，最终使其成为肿瘤诊断和治疗中不可或缺的一部分，实现在患者个体水平上的精准靶向治疗。

参考资料：

1. Mani, D.R., Krug, K., Zhang, B. et al. Cancer proteogenomics: current impact and future prospects. Nat Rev Cancer （2022）.

2. Sinha, A. et al. The proteogenomic landscape of curable prostate cancer. Cancer Cell 35, 414–427.e6 （2019）.

3. Zhang, B. et al. Clinical potential of mass spectrometry-based proteogenomics. Nat. Rev. Clin. Oncol. 16, 256–268 （2019）.

本文由 SEQ.CN 作者：白云发表，转载请注明来源！

关键词：蛋白质基因组学

科研

Nat Rev Cancer重磅综述 | 肿瘤蛋白质基因组学研究进展及未来前景

相关文章

Genome Biol｜汤富酬等利用大型语言模型进行全自动单细胞RNA-seq数据注释和集成

谁说心脏没有修复能力？一种lncRNA或是触发心脏修复的关键

重磅！科学家开发新型体外重编程技术，利用抗体将皮肤样细胞转化成诱导多能干细胞

热评文章

最赞的文章