背景介绍
单细胞转录组测序(scRNA-seq)实现了高通量和高分辨率的基因表达谱分析,但由于样品制备过程中组织被分离,空间信息并没有被保留。近年来,新兴起的空间转录组学技术能够在保留空间背景的同时全面检测转录组谱,使人们对转录组表达的空间位置有了更深的认知,并且为生物学功能和病理提供重要的见解。
目前,利用空间转录组学,人们已经对肿瘤异质性、脑功能等不同领域产生了更加深刻的认识。但这些空间基因表达平台仍然存在分辨率的技术限制。虽然后续开发的结合荧光原位杂交(FISH)技术的空间转录组测序方法以及其他方法,如Slide-seq和ZipSeq等提供了更高的分辨率,但大多数方法仍然存在通量较低、敏感性较低、依赖某种特定条件或不能够被广泛使用等限制问题。
此外,在测序技术发展的同时,还需要新的统计方法来分析空间基因表达数据,从而有效地利用现有的空间信息进行科学研究。其中,聚类分群是此类数据分析的重要一步,也是下游深入分析的基础,后续研究诸如细胞类型或组织注释、差异表达等均依赖有效的分群。有学者提出了一种隐马尔科夫随机场模型(HMRF),通过对基因表达和空间邻域结构联合建模,将低分辨率原位杂交数据聚类到不同的空间域,选择空间差异表达基因进行聚类。但是,现有的大多数空间基因表达数据分析方法往往依赖于非空间scRNA-seq数据的聚类方法,难以精确反映空间转录组所提供的信息。
近日,美国西雅图弗雷德·哈钦森癌症研究中心、华盛顿大学等单位的联合研究团队在Nature Biotechnology发表了题为“Spatial transcriptomics at subspot resolution with BayesSpace”的文章。该研究提出了BayesSpace算法,这是一种利用空间转录组数据中的邻域结构来增加子点级别分辨率的计算方法,通过使用贝叶斯统计来实现超分辨率图像分析。研究人员利用BayesSpace进行空间聚类改进了对空间分布的组织域的识别,提高了基因表达图谱的分辨率,并可以重现接近单细胞分辨率的真实空间结构。
文章发表在Nature Biotechnology上
主要研究内容
据文章介绍,BayesSpace通过对低维的基因表达矩阵进行建模,并通过空间先验知识诱导真实的邻近点聚集,以此进行推广,从而实现空间聚类。这种方法来自于此前开发的用于图像分析和微阵列数据的空间统计方法。与已有的方法相比,BayesSpace允许对聚类结构和错误项进行更灵活的调整和规范。
图1. BayesSpace基本原理,图片来源:Nature Biotechnology
为了检测BayesSpace的性能,研究人员使用Maynard等人公开发表的12个背外侧前额叶皮层 (DLPFC) 样本的Visium空间表达谱数据,以及每个样本的6个皮质层和白质的手工注释,这些是作为R包spatialLIBD的一部分。借助该数据集,研究人员评估了BayesSpace识别不同皮层特定表达轮廓的能力,并将其性能与其他空间和非空间聚类方法进行比较。
结果显示,BayesSpace大大优于原始的spatialLIBD聚类分区,以及为空间转录组数据开发的其他所有非空间聚类算法和空间聚类方法。除BayesSpace外,大多数聚类分区表现出大量的噪声,且聚类之间缺乏明确的空间分隔。相比之下,BayesSpace利用了空间信息平滑数据,并提供不同的集群分层。此外,BayesSpace的运行时和内存占用与其他空间聚类方法相当。
图2. BayesSpace性能评估及比较,图片来源:Nature Biotechnology
随后,研究人员还使用BayesSpace分析了由Thrane等人首次注释和描述的黑色素瘤空间转录组样本,这些数据包括了人工标注识别的黑色素瘤、间质和淋巴组织的区域。结果显示,利用BayesSpace得到的4个空间聚类与手工标注的组织类型相吻合。此外,BayesSpace增强的空间聚类提供了更高分辨率的组织类型图,例如增强识别的肿瘤边缘的淋巴样区域和可能的免疫浸润肿瘤区域。这些区域在最初的分辨率下是无法识别的,并且这些区域在很大程度上也没有被其他聚类方法识别。
差异表达分析结果提示,淋巴区域有一个独特的表达谱,其淋巴细胞标志物CD52和MS4A1的表达升高,黑色素瘤标志物MCAM和SPP1的表达相对于周围肿瘤边界的表达降低,四个聚类间的增强分辨率差异表达分析强调了基因表达的额外空间变异。
图3. BayesSpace鉴定出黑色素瘤样本中的肿瘤近端淋巴组织结构,图片来源:Nature Biotechnology
接下来,研究人员进一步分析了浸润性导管癌(乳腺癌的一种病理分型)的组织切片以确定聚类分群的生物学相关性。每一张组织切片,病理学家注释了主要的浸润性癌、原位癌和良性增生的区域,从中可以得到每个点的真实标签。结果显示,BayesSpace聚类与组织病理学注释基本一致。
此外,如果没有苏木精和伊红(H&E)染色或免疫荧光染色作为肿瘤标志物,肿瘤-基质界面在组织学上不能被完全描述。BayesSpace增强的聚类可以识别出组织内的异质性,并得到关键肿瘤标记基因的明确数据支持。也就是说,已知肿瘤标记基因的空间表达模式和这些聚类之间的差异表达分析与临床和组织病理学注释基本一致。例如,在整个肿瘤群体中观察到ERBB2和ESR1基因的高表达水平;非肿瘤细胞群1、7和10的特征是免疫基因的表达,如PTPRC(白细胞共同抗原CD45) 的高表达。这些空间表达模式表明,侵袭性肿瘤存在明显瘤内转录异质性,目前的组织病理学分析方法无法识别这些差异,表明空间转录组数据相对于单纯免疫荧光的优势。
图4. BayesSpace区分浸润性导管癌的瘤内异质性,图片来源:Nature Biotechnology
研究总结
综上所述,该研究首次报道了BayesSpace这一基于空间转录组模型的聚类方法。BayesSpace使用t分布错误模型来识别空间聚类,这些聚类对于技术噪声引起的离群值的存在更加鲁棒。随后的应用及分析结果证明,BayesSpace在识别具有相似表达谱的空间群体和提高空间转录组的分辨率方面有较高的实用性。为了方便使用,研究人员将BayesSpace包装成了一个R包,所有需要的研究人员均可能在Bioconductor上公开访问、安装、使用。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!