单细胞RNA测序(scRNA-seq)可以从微环境异质组织中区分细胞类型、状态和谱系,为生物医学研究和临床实践带来了革命性变化。单细胞数据分析使用无监督聚类方法能定义多达数十个细胞类型,从而评估每个细胞簇的重要性。识别多样化的表型,包括疾病分期、肿瘤转移、基因变异、治疗反应和生存结果等相关的细胞亚群对促进靶向治疗以及预后生物标志物的发现有重要作用。但目前大多数单细胞研究只针对特定单个表型,涉及几十例样本,缺乏足够的统计能力来识别驱动表型的细胞亚群。
通过长达十年的临床病理注释收集,目前,人们能够从癌症基因组图谱 (TCGA) 这样的公共大数据集上获得批量测序数据及其对应的表型数据。利用这种广泛可及且有表型注释信息价值的批量测序数据,来指导基于单细胞数据进行细胞亚群鉴定具有重大意义,但还没有生物信息学工具可以在单细胞数据分析中利用大量表型信息来指导关键细胞亚群的识别。
近日,美国俄勒冈健康与科学大学计算生物学组夏铮团队在Nature Biotechnology上发表了题为“Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data”的研究文章。研究团队开发了Scissor算法,可利用大量单细胞数据和表型信息识别与疾病高度相关的细胞亚群,从一个新的角度来探索和解释了单细胞数据,对揭示疾病的机制,提高疾病的诊断和治疗具有重要意义。
文章发表于Nature Biotechnology
Scissor的三个数据源是单细胞表达矩阵、bulk表达矩阵和目的表型。每个bulk样本的表型注释可以是连续变量、二分向量或临床生存数据。Scissor利用批量数据及其注释的各类表型信息,从单细胞数据中自动识别与给定表型相关度最高的细胞亚群。Scissor的关键步骤是通过对每对细胞和bulk样本的Pearson相关性等检测,量化单细胞数据和大量细胞数据之间的相似性(图1)。
研究人员首先在一系列模拟数据集上评估了Scissor的性能,以测试Scissor能否恢复已知表型相关的细胞亚群。结果表明,Scissor有能力从单细胞数据中识别表型相关的细胞亚群。
利用来自TCGA的577个肺腺癌(LUAD)肿瘤样本和正常表型样本,研究团队设计了一个基于样本表型相关矩阵的回归模型并整合了相似性网络。通过优化这个回归模型,Scissor可以识别与目标表型最相关的细胞亚群。结果显示,Scissor能够很好地区分肿瘤细胞和正常细胞,证明Scissor能够在大量细胞表型数据信息的指导下,从单细胞数据中准确识别大多数表型相关细胞。
图1. Scissor 的工作流程。来源:Nature Biotechnology
癌细胞具有异质性,包括肿瘤干细胞等亚群。这些细胞亚群会导致肿瘤进展和不良预后。因此,研究人员利用Scissor从肺癌LUAD-scRNA-seq数据集中的4102个癌细胞中识别了侵袭性癌细胞亚群,并确定了一个侵袭性癌细胞亚群。该亚群与较差的生存结果相关,其特征是缺氧相关基因的过度表达。高缺氧活性可能推动LUAD进展,使肿瘤中含有大量此类细胞的患者预后不佳。
为了进一步证明Scissor探索单细胞数据中细胞状态的高度灵活性,研究人员利用TCGA-LUAD提供的其他表型特征来指导相同4102肺癌细胞内细胞亚群的识别,并重点分析了TP53。结果表明,Scissor能够识别与较差生存率和TP53突变相关的细胞亚群(图2)。
图2. TCGA LuAD生存结果指导下肺癌细胞的鉴定。来源:Nature Biotechnology
研究人员对黑色素瘤scRNA序列数据集进行了Scissor操作,以确定与ICB反应相关的T细胞亚群。在黑色素瘤中,Scissor发现了一个与免疫治疗反应正相关的低PDCD1/CTLA4和高TCF7表达的T细胞亚群,表明即使单细胞数据本身没有相关表型信息,Scissor分析仍能识别与特定表型相关的细胞亚群(图3)。
图3.黑色素瘤T细胞的Scissor鉴定结果。来源:Nature Biotechnology
单细胞技术为解开神经系统疾病中的细胞多样性提供了强大技术支持。研究人员应用Scissor对阿尔茨海默症(AD)scRNA-seq研究中的三种脑细胞类型进行了分析,确定了三种与AD高度相关的脑细胞亚群,对理解AD的潜在发病机制、疾病诊断和治疗具有重要作用。除了在癌症和AD中的应用,Scissor在肌肉疾病单细胞数据集分析方面也有很高的应用潜力(图4)。
图4.Scissor在 AD中的鉴定结果。来源:Nature Biotechnology
综上所述,研究团队开发的新型计算工具Scissor,可从给定表型相关的单细胞数据中识别细胞亚群。Scissor应用于肺癌scRNA-seq数据集,可识别出与生存恶化和TP53突变相关的细胞亚群;在黑色素瘤中,Scissor发现了一个与免疫治疗反应相关的低PDCD1/CTLA4和高TCF7表达的T细胞亚群。除了癌症,Scissor在肌肉疾病和AD方面的应用也很有效,从新的角度探索和解释了单细胞数据,为疾病机制提供新的思路,是一种很有应用前景的工具。
Sun D, Guan X, Moran AE, et al. Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data [published online ahead of print, 2021 Nov 11]. Nat Biotechnol. 2021;10.1038/s41587-021-01091-3.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!