科研

首页 - 全部文章 - 科研 - De novo提取算法SigProfilerExtractor在癌症基因数据中发现4种新突变特征 | Cell Genomics

De novo提取算法SigProfilerExtractor在癌症基因数据中发现4种新突变特征 | Cell Genomics

癌细胞基因组中存在正常组织中不存在的体细胞突变,这些体细胞突变是贯穿癌细胞谱系的所有内源性和外源性突变过程的累积。已有研究发现,特定环境致癌物表现出体细胞突变的特征模式。下一代癌症基因组测序数据的爆炸式增长,以及新型计算方法的发展,使得识别癌症中个别突变过程的特征成为可能。目前,癌症基因组的大规模分析已经揭示了100多个不同突变特征,其中一些归因于环境致癌物的暴露、DNA修复途径的失败、复制聚合酶的缺乏、医源性事件等。

此前,加州大学圣地亚哥分校Ludmil Alexandrov博士团队开发了突变特征De novo提取算法SigProfilerExtractor,该算法使用复杂的数学方法来扫描癌症患者的测序数据,从中重新提取突变特征。SigProfilerExtractor可以识别出有效突变特征的数量,及其在每个样本中的活动以及概率。

SigProfilerExtractor概述

近日,Ludmil Alexandrov博士团队对SigProfilerExtractor进行了全面的基准测试,研究结果发表Cell Genomics上,文章题为“Uncovering novel mutational signatures by de novo extraction with SigProfilerExtractor”。SigProfilerExtractor和其他13个突变特征提取工具在34个不同场景中的比较表明,SigProfilerExtractor对噪音具有很强的鲁棒性,并且突变特征De novo提取方面优于所有其他计算工具。将SigProfilerExtractor应用于全基因组泛癌分析项目(PCAWG)发布的2778个全基因组测序(WGS)和19184个全外显子组测序(WES)数据,揭示了四种新的突变特征。

文章发表在Cell Genomics

研究团队对突变特征De novo提取的工具进行了基准测试,利用携带已知突变特征的超过60000个合成癌症基因组和20000个癌症外显子组数据,这些合成数据分类为32个无噪音场景和两个有不同噪音水平的场景。此外,基准测试中还包括一个全基因组SBS-96场景,以及一个全外显子组SBS-96场景。

首先,将SigProfilerExtractor和其他13个工具(包括SignatureAnalyzer (SA)和SigProfiler_PCAWG等)应用于基于SBS-96突变分类的所有无噪声WGS场景,进行PCAWG突变特征分析和COSMICv3参考特征集的推导。除MutSignatures(只能为固定数量的特征分解矩阵)之外,所有其他工具都应用于每个场景,选择有效特征的数量。除SA外,所有的工具也被用于提取已知数量的真实突变特征。评估显示,大多数工具可以成功地从简单的场景中提取突变特征,大多数F1得分为>0.90(图1)。在中等难度场景分析中,只有SigProfilerExtractor、SigProfiler_PCAWG和SA显示F1得分>0.90。但在高难度场景分析中,只有SigProfilerExtractor的F1得分为0.90

图1.使用SBS-96无噪声场景对用于突变特征De novo提取的生物信息学工具进行基准测试。

总体来说,在包含60%人类癌症类型的无噪声WGS场景中提取的所有突变特征中,SigProfilerExtractor的表现优于所有其他工具。SigProfilerExtractor能够多识别10%到37%的真阳性突变特征,产生的假阳性突变特征员少于其它7个工具。

图2.对用于突变特征De novo提取的前八种生物信息学工具的评估。

为了证明其产生新的生物学结果的能力,SigProfilerExtractor被应用于PCAWG项目中最近发表的2778种癌症WGS数据。此外,研究团队将SigProfilerExtractor应用于另一个1865个WGS数据和19184个WES数据的扩展队列,包括癌症基因组图谱(TCGA)以及261个其他已发表的研究和35个不同的ICGC项目的数据。与PCAWG突变特征的分析过程相同,研究团队在每种癌症类型和所有样本中进行了12次突变特征提取。除了所有之前检测到的特征,SigProfilerExtractor在PCAWG数据集中发现了三个新的突变特征:SBS92、SBS93和SBS94。此外,在扩展队列中还发现了一种新的突变特征:SBS95。(图3)

图3.在4643例WGS和19184例WES数据中发现了新的特征。

除了在模拟数据集上优于其他13个工具外,SigProfilerExtractor还可以揭示更多的生物学结果。重要的是,SigProfilerExtractor可识别出SBS92信号,膀胱癌患者和正常膀胱尿路上皮活检显示该信号吸烟有关。研究团队和其他先前对TCGA外显子测序膀胱癌的研究分析中并没有发现SBS92。利用SigProfilerExtractor重新分析TCGA膀胱癌WES数据也无法检测SBS92。因此,研究团队猜测TCGA膀胱癌数据中缺少SBS92信号是由于使用了WES。随后,研究团队证实WES无法识别SBS92突变特征。

研究概述图

综上所述,研究团队对提取突变特征的生物信息学方法SigProfilerExtractor进行了最大的基准测试,证明SigProfilerExtractor优于其他13种工具。此外,研究团队将SigProfilerExtractor应用于4643例WGS数据和19184例WES数据,揭示了四种新的突变特征。SigProfilerExtractor为突变特征分析提供了一个参考工具。

参考资料:
S.M. Ashiqul Islam, Marcos Díaz-Gay, Yang Wu, et al. Uncovering novel mutational signatures by de novo extraction with SigProfilerExtractor. Cell Genomics, 2022. https://doi.org/10.1016/j.xgen.2022.100179
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章