科研

首页 - 全部文章 - 科研 - Nature子刊 | Dana-Farber癌症研究所开发基于大型癌症基因组数据集的NLP模型,适用多种癌症类型

Nature子刊 | Dana-Farber癌症研究所开发基于大型癌症基因组数据集的NLP模型,适用多种癌症类型

肿瘤生物标志物在癌症早筛、诊断及治疗、预后中发挥着关键作用,为提高肿瘤生物标志物的应用效果,就需要对经过深度分子表征的大量肿瘤数据集进行系统性分析。由于缺乏可推广的用来收集患者临床数据及追踪患者临床结果的方法,肿瘤数据的应用也受到了限制。
在治疗性临床试验之外,通常不会以结构化格式记录临床结果和预后信息。因此,从电子病历中提取数据需要繁琐的人工病历审查,但不同研究中缺乏用于病历注释的标准化数据模型使得临床数据无法充分发挥更多效用。
此前,Dana-Farber癌症研究所研究团队开发了基于结构病理学、放射学影像、体征/症状、医学肿瘤学家评估和生物标记物(PRISSMM)的数据模型,以结构化和可重现的方式提取与基因组数据集关联的临床结果。PRISSMM可提供从单个影像报告和医学肿瘤学家手写病例中提取特定癌症结果的规则。同时,为单个电子健康记录(EHR)文档生成的PRISSMM注释也可以作为标签来训练机器学习模型以自动执行注释工作。
该研究还论证了训练自然语言处理(NLP)模型能够从非小细胞肺癌患者的影像报告和医学肿瘤学家提供病例中提取结果的可行性。但是这种方法对其他类型癌症的可推广性及其用于创建关联临床基因组数据集的应用在此前的研究中尚未涉及,其性能也有待进一步研究。
近日,该研究团队在Nature Communications在线发表了题为“Artificial intelligence-aided clinical annotation of a large multi-cancer genomic dataset”的文章。研究人员利用来自多种癌症患者的临床数据训练自然语言处理(NLP)模型,并证明了其对训练集中未见的癌症类型的普遍适用性,还进一步评估了NLP衍生的临床注释与患者总生存率之间的关联。研究团队将该技术应用于大规模的EHR数据,创建了一个大型的多癌症临床基因组数据集,并通过探索肿瘤突变负荷(TMB)与免疫检查点抑制剂治疗无进展生存率之间的关联,证明了该数据集的实用性。
图片

文章发表在Nature Communications

主要研究内容

该研究共纳入了2013年至2021年参与Dana-Farber癌症研究所PROFILE项目的患者,涵盖13种常见恶性实体肿瘤类型,包括乳腺癌、大肠癌、子宫内膜癌、胃/食管癌等,这些患者均进行了肿瘤组织的多组学测序。此外,其他类型的数据包括来自13,130名患者的共计304,160份影像报告;肿瘤学家记录的232,575份报告(来自13,511名患者)。

图1. 患者临床特征与放射学信息的关联分析,来源:Nature Communications

NLP对每个文档的性能进行建模

评估发现,基于所有标记数据的训练成像报告中提取结果的NLP模型对预测任何一种癌症结局的AUROC为0.98,预测癌症进展/恶化的AUROC为0.95。同时,NLP模型还能准确预测特定转移部位的癌症,其中脑肿瘤的AUROC为0.99,骨癌为0.99,肾上腺癌为0.99,除尿路上皮癌的腹膜转移外,不同类型的肿瘤表现均一致较好。
图片

图2. NLP模型在测试数据集中的性能评估,来源:Nature Communications

随后,研究人员利用训练模型从所有标记的来自医学肿瘤学家提供病例中提取信息,如果不区分肿瘤类型,其对临床结果预测的AUROC为0.93,进展/恶化结局的预测AUROC为0.92,获得临床改善结局的预测AUROC为0.93。具体到每一种癌症类型,除胰腺癌外(0.72),对其他所有癌症类型的预测准确性均一致较好(>0.90)。

图3. NLP模型在验证数据集中的性能评估,来源:Nature Communications 

接受免疫治疗患者的TMB与PFS相关性

为了进一步展示NLP模型定义临床结果的临床基因组数据集的应用,研究团队计算了PFS和肿瘤突变负荷(TMB)之间的关系。此前,TMB被认为是接受免疫治疗患者预后的生物标志物。该研究共纳入1374名患者,其中包含接受免疫检查点抑制剂治疗的患者。数据显示,在Cox模型中,发现较高的TMB和较长的生存时间之间有显著关联。当TMB被分为高(大于等于20个突变/每百万碱基)或低(小于20个突变/每百万碱基)两个类别时,这种显著相关性仍然持续存在。

图4. 免疫疗法中TMB与无进展生存期之间的关联,来源:Nature Communications

结 语

综上所述,该研究应用深度NLP人工智能神经网络方法来提取临床信息,包括癌症反应、进展和转移位点,并关联到实体肿瘤患者的基因组数据。虽然该模型是通过对整个队列中大约21%的患者信息进行了基于标签的手动审查来训练和验证,但模型仍能够推广到那些临床信息未被人工审查的患者,甚至可以推广到模型训练中包括的其他癌症类型。同时,该模型自动提取的临床信息显示了与总生存率的显著的相关性。通过检测TMB和不同癌症类型无进展生存期之间的关系,证明了这种方法对癌症基因组信息的实用性。
研究团队将人工临床注释与深度神经网络相结合,完成了多种癌症类型基因组队列的临床结果提取,由此产生的注释可以可靠地捕捉到准确的临床结果,对于没有用于训练的标记数据的癌症类型也适用。
参考文献:
1. Kehl, K.L., Xu, W., Gusev, A. et al. Artificial intelligence-aided clinical annotation of a large multi-cancer genomic dataset. Nat Commun 12, 7304 (2021).
2. Zehir, A. et al. Mutational landscape of metastatic cancer revealed from prospective clinical sequencing of 10,000 patients. Nat. Med 23, 703–713 (2017).
3. Kehl, K. L. et al. Assessment of deep natural language processing in ascertaining oncologic outcomes from radiology reports. JAMA Oncol. 02215, 1–8 (2019).
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章