科研

首页 - 全部文章 - 科研 - Nat Med|基于4万余人Olink蛋白组学的临床预测模型,提前10年预测超50种疾病的发病风险!

Nat Med|基于4万余人Olink蛋白组学的临床预测模型,提前10年预测超50种疾病的发病风险!

导读

精准医学所面临的核心挑战是开发可真正应用于临床的工具,来识别疾病高危人群,促进及时诊断、早期治疗并改善患者预后。目前,临床上推荐的预测疾病发病风险的工具已广泛应用于心脏病发作和卒中,但类似工具却很少用于其他疾病。在多数疾病中,从最初出现症状到最终确诊往往要经历数月甚至数年的时间。

近年来,单一血浆蛋白质已成为少数几种疾病的特异性诊断检测靶标,例如用于心力衰竭诊断的B型利钠肽(BNP)等。血浆蛋白质组学可对数千种蛋白质进行评估,并可进行不局限于单一疾病的不可知发现研究,是加速疾病预测工具开发的一种有前景的技术。特别地,利用血浆蛋白质可捕捉个体的健康行为和当前健康状况,并整合“静态”遗传和动态环境决定因素的风险。但血浆蛋白质组学能否单独或联合为广泛疾病提供临床上有用的预测或机制信息,目前仍不清楚。

近期,英国剑桥大学、葛兰素史克(GSK)公司等机构的科研人员合作在Nature Medicine发表了题为“Proteomic signatures improve risk prediction for common and rare diseases”的文章。研究团队对迄今为止最大规模蛋白质组学研究——英国生物样本库制药蛋白质组学项目(UKB-PPP)中41,931名个体进行分析,将约3000种血浆蛋白质的检测结果与临床信息相结合,开发了可预测218种常见和罕见疾病未来10年发病率的稀疏预测模型,为每种疾病确定了对预测最重要的5-20种蛋白质特征

研究团队将使用蛋白质组学数据开发的预测模型,与仅使用基础临床信息或结合37项临床检测数据开发的模型进行对比。结果显示,对于67种病理特征各异的疾病,基于5-20种蛋白质的稀疏模型预测性能优于基于临床信息开发的模型。值得注意的是,在多发性骨髓瘤(MM)、非霍奇金淋巴瘤、运动神经元疾病、肺纤维化和扩张型心肌病在内的52种疾病中,稀疏蛋白质模型的预测性能优于结合临床信息和血液检测数据开发的模型。综上,该研究探索了血浆蛋白质组学在广泛疾病预测和机制理解方面的潜力,并评估了其作为临床筛查工具的可行性,为精准医学的发展提供了新见解。

文章发表在Nature Medicine

研究团队在UKB-PPP中随机挑选了41,931名参与者,利用Olink Explore 1536和Explore Expansion平台,对其EDTA血浆样本进行蛋白质组学分析,共检测到2,923种独特蛋白质;基于先前已验证的表型,通过整合初级保健数据、住院记录、癌症和死亡登记以及UKB健康问卷调查的数据,定义了218种疾病。对于每种疾病,使用LASSO回归对2,923种蛋白质和37种临床检测数据(例如血细胞技术、胆固醇水平等)进行特征选择,分别确定了5-20种重要的蛋白质特征以及临床检测数据

接下来,利用正则化Cox回归,研究团队构建了针对218种疾病的“基准”临床预测模型,包含年龄、性别、体重指数 (BMI)、自我报告的种族和吸烟状况等基础临床信息。经检验,该模型在内分泌和心血管疾病中的预测表现最好。

图1. 研究设计。

稀疏蛋白特征改善了临床模型的预测

研究团队评估了在基准临床模型中加入5-20种蛋白质或临床检测数据能否提高其预测性能(图2)。结果显示,对于67种罕见和常见病,添加5-20种蛋白质显著改善了临床模型预测性能,包括MM、非霍奇金淋巴瘤、肺纤维化、乳糜泻、扩张型心肌病、运动神经元疾病。在67种疾病中,当假阳性率(FPR)为10%时,蛋白质模型的中位检出率(DR)为45.5%,临床模型为25%;其中位似然比(LR)为4.55,相比临床模型提高了0.12-6.92

图2. 在67种疾病的基本临床危险因素基础上添加蛋白质组学信息提高了疾病发病率的预测性能。

与临床模型相比,添加血液检测数据的模型对28种疾病的预测性能有显著提高(图3)。特别地,对于67种疾病中的52种,与基于血液检测数据的模型相比,基于蛋白质的模型实现了更高的LR

图3. 基于蛋白质的(临床风险因素+蛋白质)和基于生物标志物的(临床危险因素+血液检测)模型之间的预测性能比较。

与单个信息量最大的蛋白质相比,在通过蛋白质显著提升预测性能的67种疾病中,基于稀疏蛋白质特征(5-20种蛋白质)的模型C指数平均比临床模型高5.4%;64%的情况下,仅包含5-10种蛋白质就能达到性能饱和。此外,在67种疾病中,蛋白质模型对血液或免疫疾病的预测能力提高了8倍多;对于不常见的疾病,蛋白质模型的平均改进程度更高。

在MM相关研究中,研究团队通过新诊断患者骨髓的单细胞RNA测序发现,5种预测蛋白质中的4种在浆细胞中特异性表达,即FCRLB、QPCT、SLAMF7和TNFRSF17,表明这些蛋白质可作为浆细胞水平的标志物,这进一步验证了稀疏蛋白质作为预测指标的强大潜力

最后,研究团队在欧洲诺福克癌症前瞻性研究(EPIC—Norfolk)中对稀疏蛋白质模型进行了外部验证。结果显示,该模型对于所测试的6种疾病均表现出良好的泛化能力,这表明血浆蛋白质特征,无论是特定于某种疾病的蛋白质,还是跨多种疾病共享的蛋白质预测因子,都可为常见和罕见疾病提供有效预测。

预测多种以及单一疾病的蛋白质

研究发现,具有临床相关性改善的67个预测模型共涉及501个蛋白质靶点,其中147个被选择用于两种或两种以上疾病;大部分(89%)被选择用于两个或两个以上临床专科。与高度特异性蛋白质相比,这些蛋白质对预测单一疾病的贡献相对较低,且没有特定生物途径的富集。此外,在可预测超10种疾病的5种蛋白质中,年龄是其中4种蛋白质的主要相关因素,而吸烟状况是CXCL17的主要相关因素

图4. 预测蛋白的疾病特异性。

研究团队还发现了一些仅对单一疾病具有较强预测能力的蛋白质(图4c),与特定疾病相比,这些蛋白质在其他疾病中的特征选择评分平均低86%。例如,TNF受体超家族成员17(TNFRSF17或B细胞成熟抗原)是MM的特异性预测因子,TNFRSF13B则是单克隆丙种球蛋白病(MGUS)的强预测因子。

对于UKB中具有多基因风险评分(PGS)的23种疾病,分析发现与临床模型相比,PGS仅显著改善了对7种疾病的预测,但与蛋白质模型对这些疾病的预测相比,PGS的临床改善可以忽略不计。除乳腺癌外,蛋白质模型在所有疾病中的表现均优于PGS。

蛋白质和临床模型的筛选指标

研究分析显示,在广泛FPR(5-40%)范围内,蛋白质模型在所有条件下都表现出优越、一致的筛查指标(图5)。在20% FPR时,蛋白质模型可识别出肺纤维化(DR=80%)和扩张型心肌病(DR=75%)高风险个体。在低 FPR(5%)时,蛋白质模型确定了MM(DR=50%)、非霍奇金淋巴瘤(DR=55%)和运动神经元疾病(DR=29%)高风险个体。

图5. 检出率曲线。

综上所述,该研究展示了稀疏蛋白质特征在改善常见和罕见疾病发病预测方面的潜力。通过整合约3000种广泛捕获的血浆蛋白质与电子健康记录(EHR),研究团队发现稀疏蛋白质模型预测性能优于基于临床信息或结合临床检测数据的模型,不仅在常见疾病中表现出色,在许多罕见疾病中也显示出较高的预测能力;可帮助识别高风险个体,为早期干预提供依据。未来,随着蛋白质组学技术在临床实践中的应用不断扩大和深入,蛋白质组学有望成为疾病早期预测和诊断的重要工具,为精准医学的发展提供新动力。

参考文献:
Carrasco-Zanini, J., Pietzner, M., Davitte, J. et al. Proteomic signatures improve risk prediction for common and rare diseases. Nat Med (2024).
https://www.nature.com/articles/s41591-024-03142-z
(0)

本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!

热评文章