产业

如何构建全面的癌症体细胞突变数据库COSMIC

从2008年第一个AML癌症基因组发表到现在的13年中,癌症基因组学在测序技术和分析技术的驱动下以极快的速度发展,为临床转化应用开创了大量先例和可能性。随着技术的进一步发展和对癌症基因组了解的深入,科学家和肿瘤学家都期待能够更好的利用已积累的基因组、转录组和表观遗传学等分子特征来更好的构建癌症发生发展的分子机理、发现新的治疗方法和鉴定潜在的生物标志物。

癌症基因组数据的积累,面临的一个巨大的挑战是如何将不同来源的基因组信息进行整理和汇总,从而帮助科学家系统的分析基因突变在癌症发生风险、预后和临床治疗中的意义。COSMIC(the Catalogue Of Somatic Mutations In Cancer)作为最重要的癌症体细胞突变数据库,从2004年开始一直致力于通过专业的博士后科学家精心收集和整理来自发表文献、会议摘要、临床试验、FDA、国际基因组项目等来源的基因组信息。截至2020年8月该数据库已经整合了27,000多项科学和临床报告以及500项独立的国际癌症基因组项目,涵盖了1,500多种癌症相关的71,000,000个变异位点信息,为全球超过20,000研究人员使用。为了更好的服务于全球研究者,扩大COSMIC数据库在癌症领域的应用2021年1月QIAGEN与Sanger研究所达成了COSMIC数据库独家商业化许可和分销协议

COSMIC数据库信息

COSMIC数据库收集的信息主要来自已发表文献和国际基因组项目,专家团队通过阅读全文和查阅补充材料获取全面的信息。这些信息囊括了不同癌症体细胞突变图谱、表型和基因型注释信息、突变位点耐药性信息、肿瘤驱动基因分子机理、突变位点功能影响以及药物靶点信息等。COSMIC数据库每年进行三次更新,一方面添加最新报告的突变位点,另一方面对已收录的位点信息进行更新。截至2020年8月,COSMIC数据库包含的信息汇总如下表。

体细胞突变临床药物信息

除了提供完善的癌症体细胞突变图谱,COSMIC近期也将发布COSMIC Actionability 产品。该产品汇总了靶向体细胞突变位点的临床药物信息,构建了体细胞突变、癌症和药物之间的关系图谱。同时COSMIC数据库将这些临床药物分成4个级别:已经批准上市;临床2/3期已经达到主要结果;正在进行临床试验;案例报道

Curation团队主要通过以下四个途径来获取临床药物信息,

• 临床试验记录:定期跟踪和检索NIH clinical trial数据库

• 已发表文献:从文献报道收集的临床药物信息比clinical trial数据库多60%,更重要的是curation团队会记录clinical trial停止的原因

• 会议报告或公司网站:汇总来自没有发表的会议报告和公司网站发布的临床试验信息

 FDA:汇总提交到FDA进行审批的临床药物信息

截至到2020年12月COSMIC收录的体细胞突变临床药物信息汇总见下表。

临床信息

COSMIC数据库在收集癌症基因组、临床药物信息的同时也对样本相关的35+种临床信息进行了详细的汇总,可以帮助研究者基于临床信息对样本进行分组,从而挖掘体细胞突变与临床信息之间的关系。这些临床信息包括样本来源(细分到三个亚层)、组织来源(细分到三个亚层)、MSI状态、药物反应、年龄、性别、种族、原发灶/转移灶、表型等信息。以COSMIC收录来自中国大陆和台湾的63,746个样本为例,从下图可以直观看到这些样本的组织来源和转移状态。

癌症耐药性信息

癌症耐药性依然是困扰科学家和限制癌症患者治愈的主要因素,了解耐药基因对应的突变位点和药物之间的关系,可以帮助我们更加精准的选择治疗方法。截至到2020年8月COSMIC数据库已经收录了45种药物和116个基因或转录本的耐药性信息。此外,通过关联这些耐药性位点对应的样本临床信息,可以进一步挖掘耐药性机理。从下图可以发现,排名前三的耐药性基因分别是ABL1(30%)、EGFR(13%)和KIT(7%);排名前三的药物分别是Imatinib(37%)、Tyrosine kinase inhibitor(12%)、Gefitinib(11%)

COSMIC作为最全面的肿瘤体细胞突变数据库,除了以上信息外还收录了癌症样本对应的19,396个gene fusion、1,207,190个copy number variants、9,215,470个gene expression variants和7,930,489个methylated CpGs。

(1)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章