科研

首页 - 全部文章 - 科研 - Nature Biotechnology | 人类基因组非特异区域体细胞突变的泛癌图谱

Nature Biotechnology | 人类基因组非特异区域体细胞突变的泛癌图谱

在进化过程中,部分人类基因组中会经历复制和重排,使这些区域虽然分布在不同染色体位置,但序列彼此相似。目前许多测序工具依赖短读长技术,在这种测序技术层面,约10%的人类基因组并不是唯一的,因此区分这些相似序列并进行后续的突变识别都很棘手,这也在一定程度上限制了科学家们对由突变导致的疾病的认识,例如癌症。

长期以来,癌症体细胞突变的鉴别及深入分析对了解癌症的发生、其潜在的侵袭过程以及潜在治疗靶点等具有重要价值。目前,很多国际大型队列研究和数据库,例如癌症基因组图谱(TCGA)和国际癌症基因组联盟(ICGC),在揭示基因编码区域突变特征复杂性上具有重要指导意义,这些资源引导了领域内对肿瘤体细胞事件、复杂结构变异、驱动基因等层面的诸多研究。但这些认知及分析仍依赖于可以在基因组中唯一定位的变异,那些非特异区域的基因突变仍然未知,有待探索。

近日,英国弗朗西斯·克里克研究所等单位的研究团队在Nature Biotechnology在线发表了题为“A pan-cancer landscape of somatic mutations in non-unique regions of the human genome”的文章。研究人员创建了一套具有高度序列相似性区域的集合,并命名为 “基因同义词库”,并开发了一种利用该同义词库来鉴别存在于非特异区域中突变的算法。在此基础上,研究人员在大约1,700个编码序列和数千个调控元件中发现了隐藏的突变。通过功能注释分析发现,这些突变能够影响那些已知的癌症基因、免疫球蛋白和其他高度突变的基因家族。总之,该研究探索了癌症样本基因组非特异区域的体细胞突变,包括编码区和调控元件,大大拓展了癌症基因组学的研究。

文章发表在Nature Biotechnology

  主要研究内容  

“同义词库”注释揭示了一类独特的基因突变

为对包括非特异区域的体细胞突变进行分析,研究人员首先对泛癌基因组数据集进行变异识别的分析,并在整个基因组的所有区域提供了一套全面的候选位点,再对这些位点进行注释,将候选位点与基因组中可能的替代位置联系起来。该注释用于从可能被模糊映射到基因组中多个位置的reads中收集信息,以避免多次识别相同的潜在变异,并为每个变异提供一个代表坐标,从而产生新的体细胞突变调用集合。这些突变包括那些在基因组中处于特异位置的突变,以及可以连接到其他位置的突变,后者被称之为“同义词库”。后续分析发现,这组同义词库突变与之前几乎没有重叠,表明这些位点中的大多数以前都是未知的。为了检测这些位点是否准确及其合理性,研究人员比较了特异区域的突变和同义词库突变之间的总突变负荷,发现两者呈现高度一致性。

图1. 基因组非特异区域基因突变的鉴定,图片来源:Nature Biotechnology

同义词库突变影响数千个功能元素

虽然癌症基因组中的大多数突变都是无意义的,但也有一些突变会产生功能性影响,例如通过改变蛋白质结构或基因的调控功能。为了全面总结同义词库突变对肿瘤的影响,研究人员将基因组划分为由基因标识符和功能标签(编码序列、内含子、启动子、非翻译、基因间)描述的非重叠区域。总的来说,词库突变与数千个基因相关,包括1744个编码序列。

图2. 同义词库突变影响的功能区域分布,图片来源:Nature Biotechnology

研究团队计算了一个基于熵的跨癌症类型的特异性度量,并使用泛癌评分和特异性度量一起可视化编码序列的作用区域,包括启动子及其他区域。结果发现,TP53和KRAS的编码区分别是肿瘤复发和肿瘤特异性的首选区域。更有意思的是,排名最高的词库基因包括那些众所周知的癌症基因,如PIK3CA,在乳腺癌中含有词库突变。此外,IGLC、IGHG、IGHJ和IGHM家族的免疫球蛋白元件具有较高的复发率和特异性,这些实例证实了同义词库具有拓宽整个肿瘤基因组的作用。因此,对同义词库命中的基因家族进行更加深入的研究是非常有必要的。

图3. 编码序列突变的特异性分析,图片来源:Nature Biotechnology

复发性突变影响相关基因家族

由于一些词库突变的基因已经建立了与癌症的联系,因此,研究人员将所有词库基因与癌症基因突变谱进行交叉分析。结果发现了35个泛癌基因的编码序列和29个以上的非翻译或启动子区域的同义词库突变。在这些基因中,NUTM2A, NUTM2B, SSX2和SSX4这四个基因的同义词库突变构成了它们的全部突变负荷,这与这些基因由于易位和融合而在常规检测及分析算法中被鉴定的结果一致。对于PIK3CA和KMT2C这两个突变负荷最高的基因,与泛癌基因组分析相比,研究团队还检测到13%和15%的额外碱基替代事件。在已知的癌症相关基因之外,大多数基因的同义词库突变也包含一些碱基的替代,例如ANKRD30A,一种与乳腺癌相关的包含锚蛋白重复序列的基因;TPTE,一种与PTEN通路相关的磷酸酶。

图4. 基因家族中的同义词库突变,图片来源:Nature Biotechnology

   结语    

综上所述,研究人员通过分析来自泛癌全基因组数据集的2,658种癌症数据,发现了1,744种编码序列的突变以及数千种调控元件的突变。此外,这些区域的突变负荷与癌症类型的已知特性一致,突变率与具有特异序列的基因突变率也一致。更有趣的是,已建立的泛癌基因与同义词库突变的交叉分析,在一定程度上可与已被证实的癌症相关基因进行比较。这些发现为解析更加完整的癌症突变过程提供了宝贵资源。该研究第一作者&通讯作者马克西姆·塔拉比奇博士表示:“在这项研究中,我们发现了许多真正影响癌症基因蛋白质序列的突变。我们还在新的候选癌症基因中检测到很多蛋白质相关突变,其中许多存在于序列相似性很高的基因家族成员中,部分基因与癌症有关。但根据经典的突变识别算法,这些基因的编码序列似乎永远不会发生突变,由此也突出了本研究的重要性和必要性。”

参考文献:

1. Tarabichi, M., Demeulemeester, J., Verfaillie, A. et al. A pan-cancer landscape of somatic mutations in non-unique regions of the human genome. Nat Biotechnol (2021).

2. Alexandrov, L. B. et al. The repertoire of mutational signatures in human cancer. Nature 578, 94–101 (2020).

3. Konopka, T. & Nijman, S. M. B. Comparison of genetic variants in matched samples using thesaurus annotation. Bioinformatics 32, 657–663 (2016).

4. Martincorena, I. et al. Universal patterns of selection in cancer and somatic tissues. Cell 173, 1823 (2018).

5. Eichler, E. E. Genetic variation, comparative genomics, and the diagnosis of disease. N. Engl. J. Med. 381, 64–74 (2019).

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章