科研

首页 - 全部文章 - 科研 - Nature子刊 | 基于癌症患者血浆游离RNA(cfRNA)重复序列元件检测方法,助力诊断标志物开发及肿瘤分型

Nature子刊 | 基于癌症患者血浆游离RNA(cfRNA)重复序列元件检测方法,助力诊断标志物开发及肿瘤分型

导读

人类基因组大约75%被转录成RNA,这些RNA中绝大多数没有翻译成蛋白质,因此被认为是非编码RNA。虽然非编码RNA如microRNAs和长非编码RNAs(lncRNAs)被很好地注释,但许多其他类型非编码RNA在整个基因组中生成,包括重复元件转录的RNA,例如转座元件(TEs)。研究表明,TEs RNA在疾病中异常表达,突出了它们作为疾病丰富而特异的生物标志物的潜力。

细胞游离RNAs(cfRNA)是由组成人体各种组织和器官系统的细胞释放出来的,可作为疾病的生物标记物。但重复元件来源的细胞游离RNA转录组在疾病背景下的诊断潜力仍然未知。

近日,美国加州大学圣克鲁斯分校等单位的研究人员在Nature Biomedical Engineering发表了题为“Profiling of repetitive RNA sequences in the blood plasma of patients with cancer”的文章。研究团队开发了cfRNA转录组中重复元件的检测方法COMPLETE-seq,揭示了使用该RNA液体活检重复感知(repeat-aware)测序技术广泛表征cfRNA转录组的价值和实用性。研究显示,COMPLETE-seq可以对疾病特异性、重复元件来源的cfRNA进行深入分析,识别出一种稳健的、动态的重复元件衍生的RNA特征,可用于诸如癌症等疾病的诊断,并对癌症患者进行精确分类。

文章发表在Nature Biomedical Engineering

主要研究内容

COMPLETE-seq能够对cfRNA转录组进行重复元件检测

研究团队开发了COMPLETE-seq技术,使cfRNA转录组的重复感知表征成为可能。为了从人血浆中生成cfRNA测序数据,研究人员使用了一种高灵敏度的RNA-seq流程,该流程可以稳健地检测编码和非编码RNAs。考虑到人类基因组包含数百万个重复元件插入,这些重复元件插入尚未在cfRNA的环境中被检测到。因此,研究团队创建了一个用于cfRNA定量的自定义转录组注释,该注释包含了良好注释的编码RNA、非编码RNA和在人类基因组中发现的超过500万个重复元件。随后将RNA信号从单个重复元件插入聚合到亚家族元素水平,将重复特征的数量从超过500万个减少到大约15000个重复特征,用于疾病分类和其他下游分析。
与传统定量方法相比,COMPLETE-seq技术的应用显著提高了胰腺癌患者cfRNA数据中映射重复元件的百分比。值得注意的是,胰腺癌患者和健康人的cfRNA中重复亚家族总数之间没有显著差异。

图1. COMPLETE-seq分析流程

重复元件RNA在胰腺癌cfRNA中富集

为了确定cfRNA的重复元件组成,研究人员首先在超家族水平上检测了重复元件。在几乎所有的胰腺癌患者中发现了大量重复来源的cfRNA,其中大多数cfRNA来自SINE元件,并且与健康对照相比存在差异显著。这些重复超家族转录组多样性的差异表明,在癌症等疾病的背景下,cfRNA的丰度发生了动态变化。
研究人员进行了差异表达分析,发现Alu亚家族元件是来自胰腺癌患者cfRNA中最富集的TEs信号,与健康个体相比,AluY、AluSc、AluSg7、AluSc8、AluSx3和AluSg亚家族元件在胰腺癌患者中最显著富集。基于重复元件序列的分层聚类也实现了胰腺癌患者的完美聚类。

图2. 重复元件来源的cfRNA在疾病中特异性富集

COMPLETE-seq揭示cfRNA中的癌症特异性重复元件RNA特征

为了证明COMPLETE-seq技术在RNA液体活检诊断癌症中的广泛性和适用性,研究团队使用COMPLETE-seq定量分析了肺癌、肝癌、食管癌、结直肠癌和胃癌患者的cfRNA测序数据,以及相应的健康对照。
在5种不同的癌症和健康个体之间进行两两比较,捕获了不同癌症类型特有的重复元件来源cfRNA的富集和显著差异表达。通过比较不同癌症类型中显著差异表达的重复RNA信号,确定了所有重复超家族中癌症特异性TEs和其他元件重复衍生的cfRNA的富集或缺失。

图3. 疾病特异性重复元件衍生的cfRNA特征

COMPLETE-seq分析提高了诊断模型的分类性能

为了证明通过对cfRNA测序数据进行重复感知的COMPLETE-seq分析来进行诊断建模的概念,研究人员为每个癌症和健康对照创建的训练集上使用十倍交叉验证来训练回归分类器。此外,为确定重复感知COMPLETE-seq特征在疾病分类中的效用,研究团队对模型进行了重复初始化和重复感知特征集的训练。将优化后的重复感知模型与无重复感知模型进行比较,发现曲线下面积 (AUC) 和敏感性均有提高,肝癌(敏感性86%)、食管癌(敏感性56%)、结直肠癌(敏感性91%)、胃癌(敏感性86%)、肺癌(敏感性93%)的特异性均为90%。在各自的测试队列中的分类性能很大程度上反映了在训练中获得的改进,这表明模型有可能应用到其他数据。值得注意的是,研究人人员在疾病分类的重复特征依赖上观察到癌症特异性的差异。总之,对于上述所有五种癌症模型,重复感知特征增强了疾病分类,突出了COMPLETE-seq在高灵敏度和特异性疾病诊断方面的潜力。

图4. COMPLETE-seq提高了诊断模型的性能

结 语 

综上所述,该研究揭示了COMPLETE-seq技术在RNA液体活检中广泛表征cfRNA转录组的价值和实用性。该研究发现大量的非编码和重复元件衍生的cfRNA转录组是疾病特异性RNA生物标志物的丰富来源。重复元件来源的cfRNA在癌症患者的血浆中高度富集,每一种癌症类型都显示出其特有的重复衍生的cfRNA特征。
为了实现COMPLETE-seq的临床应用,未来的研究需要在其他早期癌症类型中生成更大、更多样化的cfRNA转录组数据集,以进一步提高其诊断性能和确定癌症组织的起源。此外,使用COMPLETE-seq进行癌症早期检测还需要更大规模的前瞻性研究,以评估无症状人群重复序列特征的分类性能。
文章通讯作者Daniel H. Kim教授表示:“通过观察不同的癌症,你会发现每种癌症都有自己独特的cfRNA图谱,但这些RNA中有很多来自基因组中发现的数百万个重复元件。我们发现,当我们训练用于癌症分类的机器学习模型时,引入这些重复元件来源的cfRNA作为附加特征时,这些模型表现得更好。在检测癌症方面也看到了更高的灵敏度,所以我们认为这些重复元件实际上提供了许多丰富的cfRNA信息,这是前期研究没有发现的。”
“我们现在已经展示了这些重复元件在诊断疾病方面的潜力,所以希望利用重复RNA来提高这些癌症早期检测的敏感性,这将会有很大的应用前景。”
参考文献:
Reggiardo, R.E., Maroli, S.V., Peddu, V. et al. Profiling of repetitive RNA sequences in the blood plasma of patients with cancer. Nat. Biomed. Eng (2023). https://doi.org/10.1038/s41551-023-01081-7.
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章