Cancer Cell｜MSI预测性能可达临床级！基于AI 的生物标志物预测模型加速CRC活检分析

戴胜科研 2023-09-21

结直肠癌（CRC）是全世界范围内发病率第三的癌症，也是我国常见的恶性肿瘤之一。近年来，中国CRC发病率和死亡率均保持上升趋势，在全部恶性肿瘤中分别位居第2和第5位，严重影响和威胁着人民的身体健康。CRC的精确肿瘤学需要通过PCR、测序或免疫组织化学分析来评估遗传生物标志物，如微卫星不稳定性（MSI）、BRAF和NRAS/KRAS基因的突变，这是提供各种医学指南建议、治疗的关键。深度学习（DL）可以加速从CRC常规病理切片中预测预后生物标志物，但目前的方法依赖于卷积神经网络（CNN），并且大多只在小型患者队列中得到了验证。

近期，德国德累斯顿工业大学、亥姆霍兹慕尼黑环境与健康研究中心等机构的研究人员在Cancer Cell上发表了题为“Transformer-based biomarker prediction from colorectal cancer histology: A large-scale multicentric study”的文章。研究团队开发了一种新的基于Transformer的分析框架，通过将预训练的Transformer编码器与用于补丁聚合的Transformer网络相结合，从CRC常规病理切片中进行端到端的生物标志物预测。通过对来自16个队列13,000多名结直肠癌患者组成的大规模、多中心队列进行训练和评估，该方法在手术切除组织样本的MSI预测方面达到了99%的灵敏度，阴性预测值超99%。与当前最先进的算法相比，基于Transformer的方法大大提高了预测性能、通用性、数据效率和可解释性。

文章发表于Cancer Cell

研究团队通过两种方式在CRC患者手术切除队列中，评估了基于Transformer的框架的MSI预测性能（图1）。首先在单个队列上训练模型，并在保留测试集（内部）和所有其他队列（外部）上进行测试。结果显示，在大型队列中（如DACHS、QUASAR、TCGA或NLCS），该模型AUC为0.95左右；该方法性能上述四个队列中均优于基于CNN的方法。此外，在早期发病CRC中，该方法也实现了接近0.9的AUC。

接下来，研究团队在除YCR-BCIP外的所有CRC切除队列上训练了模型，并在外部验证队列YCR-BCI上对其进行了评估。结果显示，模型灵敏度为0.99，阴性预测值超0.99。具有不同临床病理特征的患者ROC分析表明，该模型在所有亚组中表现良好。0.86的高平均AUPRC分数表明，尽管队列中部分MSI样本存在严重的类别不平衡，但基于Transformer的模型仍实现了高灵敏度和高精度。

为更好地与最先进的技术进行比较，研究团队使用相同的特征提取器CTransPath在上述四个大型队列上训练了AttentionMIL和完全基于Transformer的模型。基于CNN的方法实现了0.96的AUC，AttentionMIL为0.96，而完全基于Transformer的方法表现略好，AUC为0.97。上述结果表明，完全基于Transformer的方法在大队列和小队列上都能产生较高的生物标志物预测性能。从临床角度来看，基于Transformer的方法具有更好的泛化性能，能够产生更可靠的结果。

图1. 工作流程概述。来源：Cancer Cell

研究团队探究了完全基于Transformer的模型在其他生物标志物预测任务中的性能，如BRAF和KRAS。按照MSI预测的实验设置，研究团队首先在单个队列上对模型进行了训练，并在外部队列上进行了评估，然后在一个完全合并的多中心队列上对模型进行了训练。结果显示，模型在大队列中（DACHS和NLCS）表现较好，AUC分别为0.88和0.87；在较小队列中性能略差，AUC为0.83-0.85，但远远优于先前方法。此外，大型多中心队列中，该模型的AUC为0.88，几乎达到临床级表现。

将KRAS作为研究目标时，研究团队观察到了类似的泛化结果，在多中心队列上训练时，模型AUC为0.80，优于最新方法；单队列训练的AUC为0.53-0.77，与最新数据一致或更高。上述结果表明，基于Transformer的模型可以预测与CRC常规诊断相关的多种生物标志物。

图2. 评估生物标志物MSI、BRAF和KRAS在单个队列和大规模多中心实验中的性能。来源：Cancer Cell

在先前研究中，几乎所关于CRC中生物标志物的预测分析都是通手术切除切片进行的，因此，商业上可用的MSI检测算法仅用于切除切片。但最近的临床研究表明，MSI阳性的CRC患者需要在手术前进行免疫治疗，这就导致需要在活检材料上进行MSI检测。为解决上述难题，研究团队使用YCR-BCIP以外的所有队列的手术切除样本训练了模型，并对来自1,592名YCIP-BCIP结直肠癌患者的活检组织进行了评估（图3）。

当对两个外部队列（YCR-BCIP和MAINZ）的活检中分别进行验证时，基于Transformer的模型的平均AUC评分分别为0.92和0.86。值得注意的是，MAINZ活检队列的MSI-high比率高于训练队列。该方法表现优于现有方法，并在对切除标本的模型训练后，在活检中取得了临床级的性能。当选择具有高灵敏度的分类阈值时，与切除样本相比，活检中所有阳性预测病例中，正确MSI阳性预测病例的比率较低。

在切除样本的内部测试集上固定分类阈值时，基于Transformer的模型分别获得0.98和0.91的敏感得分，这些值高于或接近临床批准的用于切除样本的DL算法，这表明该算法能够用于临床活检。

图3. 基于Transformer的模型可实现活检的临床级性能。来源：Cancer Cell

研究团队对基于Transformer的模型的预期临床用途如下（图4）：首先，患者前往疑似CRC或进行常规CRC的诊所筛查，结肠镜检查显示可疑肿瘤，经组织学评估发现为腺癌。随后，通过基于Transformer的模型进行活检，以检测MSI/MMR状态和BRAF/RAS突变状态。最后，根据MSI、BRAF和KRAS状态，为患者选择最合适的治疗方法。

同样，在转移性疾病中，活检组织中存在MSI将使患者有资格接受姑息性免疫治疗。由于对活检组织的敏感性很高，基于Transformer的AI算法模型可作为一种预筛查工具，随后再进行肯定测试。综上，应用基于AI的生物标志物预测可以降低检测负担，加快活检和分子测定MSI-high状态之间的步骤，从而使患者能够在适合的情况下更早接受免疫治疗。

图4. 预期的MSI高分级器活检的临床工作流程。来源：Cancer Cell

综上所述，该研究提出了一个完全基于Transformer的模型来预测CRC的MSI，可加快组织样本的分析，从而更快地做出治疗决策，提供了与CRC患者活检临床测试相当的结果。在外部验证队列中，该模型在切除样本中的AUC为0.97，活检组织中的AUC为0.92和0.86。与现有的最先进的MIL或CNN方法相比，该方法具有更好的泛化能力和数据效率。

参考文献：

Wagner SJ, Reisenbüchler D, West NP, et al. Transformer-based biomarker prediction from colorectal cancer histology: A large-scale multicentric study.Cancer Cell. 2023;41(9):1650-1661.e4. doi:10.1016/j.ccell.2023.08.002

本文由 SEQ.CN 作者：戴胜发表，转载请注明来源！

关键词：AI, CRC, MSI, Transformer, 模型, 生物标志物, 结直肠癌

科研

Cancer Cell｜MSI预测性能可达临床级！基于AI 的生物标志物预测模型加速CRC活检分析

相关文章

Cell Reports | 靶向单细胞多组学方法，可在低深度下同时检测蛋白表达和低丰度转录组

Cell | 几个簸箕、几个斗？金力/汪思佳等首次揭示影响“指纹纹路”的关键基因

科研 | 北京大学生物动态光学成像中心白凡课题组与中山大学曾木圣课题组揭示食管癌早期病变与食管癌演化特征

热评文章

最赞的文章