许多大型测序项目例如ENCODE、TCGA、ICGC等为生物学和临床相关研究累积了海量数据资源。计算机方法具有巨大潜力,可以在单细胞分辨率下利用RNA-seq数据预测空间异质性,但CPM、CIBERSORT和MuSiC等方法目前只能从RNA-seq数据中推断出细胞类型的比例,无法进一步生成单细胞数据。因此,如何充分利用原有数据资源,从Bulk数据中得到单细胞分辨的空间基因表达谱,是生物学研究的一项技术挑战。
近日,浙江大学药学院、长三角智慧绿洲创新中心范骁辉教授团队联合计算机科学与技术学院陈华钧教授团队和军事医学科学院高月教授团队在Nature Communications上发表了题为“De novo analysis of bulk RNA-seq data at spatially resolved single-cell resolution”的研究文章。研究团队介绍了一种基于β-VAE等深度学习框架的空间解卷积算法——Bulk2Space,首次实现将Bulk转录组重构至单细胞空间分辨率。该方法利用现有的高质量scRNA-seq数据和空间转录组学数据作为参考,基于Bulk转录组生成了空间分辨率的单细胞表达谱,揭示了不同肿瘤区域中B淋巴细胞的基因表达差异,以及组织在炎癌转化过程中的空间转录异质性。
主要研究内容
Bulk2Space算法分为解卷积和空间映射两个步骤。其利用β-VAE在聚类空间内将异质转录组解卷积为单细胞转录组数据,然后使用空间转录组参考将生成的单个细胞分配到最佳空间位置。对于空间映射,研究人员将两种最常用的空间分辨转录组学方法作为空间参考,即基于空间条形码的RNA-seq方法和基于图像的靶向方法(图1)。
图1:Bulk2Space的工作流程。来源:Nature Communications
为了证明Bulk2-Space解卷积步骤的稳健性,研究人员利用β-VAE对来自人类血液、大脑、肾脏、肝脏和肺以及小鼠脑、肾脏、肺、胰腺和睾丸的10个不同高质量单细胞数据集的30个配对模拟,以及人类胰腺的8个单细胞RNA序列数据中的12个非配对模拟进行了基准测试。结果表明,与GAN、CGAN和bMIND解卷积方法相比,Bulk2Space的表现更优秀。虽然CGAN在单细胞生成中与Bulk2Space性能相当,但其计算速度明显低于Bulk2Space。随后,研究人员对Bulk2Space解卷积步骤进行了100次重复,结果表明,Bulk2Space在100次重复中保持高度稳健(图2)。
图2:Bulk2Space的基准测试。来源:Nature Communications
为了进一步验证Bulk2Space的性能,研究人员分别使用来自同一黑色素瘤组织的两个连续切片和来自不同PDAC组织的另外两个离散切片,执行Bulk2-Space空间解卷积相同的程序。结果显示,生成的数据与参考之间的细胞类型特异性标记基因的表达高度相关,生成单个细胞的空间分布模式与不同区域的组织学注释一致。表明Bulk2Space可以从bulkRNA-seq或scRNA-seq预测空间分辨的单细胞转录组学数据,因此可以发现相同细胞类型的空间异质性,这是其他空间解卷积算法难以实现的。
图3:基于Bulk2Space的PDAC空间解析。来源:Nature Communications
Bulk2Space除了连接病理组织中的组织形态学和转录组学外,另一个应用是利用空间模式重构组织结构。研究人员通过多重RNA-seq方法(Spatial-seq)从小鼠大脑的冠状和矢状切片中分离和测序了13个主要大脑区域,获得了大量转录组学数据。将小鼠大脑的矢状切片分成两部分,使用10XVisium进行测序,获得了小鼠皮质等区域的空间转录组学数据。
图4:Bulk2Space重建小鼠皮质等区域的层次结构。来源:Nature Communications
肿瘤的发展与慢性感染、饮食因素、肥胖、环境污染、吸烟和自身免疫有关。为了探索Bulk2Space是否可以识别在炎症诱导的癌症中协调肿瘤促进作用的细胞和分子途径,研究人员对前列腺癌的大量转录组数据进行解卷积,并将Bulk2Space生成的单个细胞映射到相应的空间参考,包括正常腺体、炎症组织和肿瘤部位。正常、炎症和癌组织之间的细胞分布比较表明,在正常腺体中,癌症相关成纤维细胞(CAF)是最丰富的,但在炎症和癌症组织中,CAF的比例显著降低。在炎症诱导的前列腺癌发展过程中,CAFs早期在正常腺体中积累,导致炎症因子高表达,促进局部炎症的发生,从而导致组织癌化,Bulk2Space结果与这一现象一致。
图5:Bulk2Space揭示炎症诱导前列腺癌不同阶段的空间基因表达动态。来源:Nature Communications
结 语
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!