科研

首页 - 全部文章 - 科研 - Cell Reports | 基于大规模转录组数据,系统比较四种降维算法分析样本异质性

Cell Reports | 基于大规模转录组数据,系统比较四种降维算法分析样本异质性

转录组测序是生物医学研究中最重要的技术之一,已有的转录组测序主要是多细胞RNA测序(bulk RNA-seq)和单细胞RNA测序 (single-cell RNA-seq, scRNA-seq)。通过对生物样本的基因表达谱分析,转录组测序技术可以刻画特定生物组织或者生物过程的基因表达特征(differential gene expression,简称DGE),认识生物功能的机制,寻找潜在的疾病诊断治疗靶点。

在对多个样本进行多细胞RNA测序的研究中,同一生物分组下的样本更具有同质性(homogeneity)是DGE分析中的一个重要隐含假设。例如,当通过比较健康人群和患某种疾病人群来研究这一疾病的生物标志物时,通常假定患者个体间的生物特征区分不明显,健康人群个体间亦是如此。但同一分组下的个体由于处在不同生物状态,导致个体间存在异质性。因此,在比较不同组的生物特征时,为了避免结果偏差或者错误,需要考虑组内样本间的异质性。

通常,具有高维形式的转录组测序数据会被降维到二维空间,再通过二维平面的可视化来展示样本间的异质性。常用的降维算法有主成分分析法(PCA)和多维标度(MDS),两者可以很好的展示数据的全局特征。此外,随着scRNA-seq技术日趋成熟,衍生出了相应的降维算法。其中,t分布随机临近嵌入(t-SNE)和均匀流形近似与投影(UMAP)通过保留数据局部结构特征可以辅助鉴定细胞群,发现稀有类型细胞和检测不同细胞群之间的差异基因。相比之下,PCA和MDS在scRNA-seq数据分析上表现稍显不足。

近日,来自昆士兰大学余迪团队、北卡罗来纳大学吴迪团队和山东省人工智能研究院舒明雷团队等单位的联合研究团队在Cell Reports发表了题为“Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data”的文章。昆士兰大学杨杨博士为论文第一作者,余迪教授和吴迪教授为共同通讯作者,该研究得到余迪、吴迪,舒明雷,香港大学深圳医院段永刚,齐鲁工业大学药学院魏云波等团队的支持。

文章发表在Cell Reports

该研究比较了非线性算法t-SNE、UMAP以及PCA和MDS四种降维算法对较大样本量的全转录组测序数据样本进行可视化和聚类分析的能力。结果显示,在区分批次效应、判定生物分组和挖掘聚类结构三个方面,UMAP明显优于PCA和MDS,略胜于t-SNE。重要的是,UMAP可以更好的保留样本的邻近信息和聚类精度,有利于发现聚类的生物和临床特征。该研究结果表明,采用UMAP对大样本量的全转录组测序数据进行可视化和数据分析,可更好的应对样本内部异质性。

主要研究内容

研究团队收集了71个外周血单核细胞或全血的全转录组测序数据集,从方法学和生物学角度系统地比较了四种主要降维算法PCA、MDS、t-SNE和UMAP的数据分析表现。具体来说,从方法学角度上,研究人员比较了四种降维算法在聚类精度、特征信息分割程度、保留临近信息和计算效率上的表现;从生物学角度上,结合样本的生物特征和临床特征信息,对四种降维算法的聚类结构通过批次效应、生物分组和挖掘新的特征信息这三个角度进行了比较解释。结果显示,UMAP明显优于PCA和MDS,略胜于t-SNE。

图1.系统的比较四种降维算法,图片来源:Cell Reports

从方法学角度比较四种降维算法

该研究通过聚类精度,特征信息分割程度,保留临近信息和计算效率四个方面比较了降维算法在全转录组测序数据集上的表现。总体上,UMAP优于其他三种方法。在聚类精度方面,PCA和MDS表现接近,t-SNE表现较好,UMAP优于其他三者;在特征信息分割程度方面,UMAP显著优于PCA和MDS,略超过t-SNE;在保留临近信息方面,UMAP和t-SNE表现相近,两者显著优于PCA和MDS;在计算效率方面,PCA计算时间最少,t-SNE和UMAP耗时近似,MDS用时最多。图片

图2. 从方法学角度比较四种降维算法,图片来源:Cell Reports 

从生物学角度比较四种降维算法

研究团队结合样本的生物特征和临床特征,基于对聚类结构的解释,进一步对上述四种降维方法进行了比较。结果显示,UMAP在展示批次效应、判定生物分组和发掘新的聚类结构上具有明显的优势,可结合已有的特征信息对新的聚类结构进行生物学和临床的解释。研究人员根据已发表的公开数据集为例比较四种降维算法,该数据集包括20个健康个体(共20个样本)和65个系统性红斑狼疮病人(共292个样本)的数据。分析显示,相比于PCA和MDS,t-SNE和UMAP可以显示出聚类结构并更好的呈现出生物分组信息。进一步比较发现,UMAP还能呈现更细分的聚类结构。通过对同一个患者样本采集时间路径的刻画,发现大多数患者的样本数据按采样时间从中间向两侧分布,表明此聚类结构与样本的采集时间相关。结合UMAP的二维可视化,该数据集的时间分布呈现出从中间向两侧延伸。

图3.UMAP呈现更细分的聚类结构,图片来源:Cell Reports

研究团队还比较了两个不同方向样本的信号通路差异和系统性红斑狼疮疾病活动指数的变化。结果显示,两个方向的样本存在反向调节的信号通路,一组患者(聚类sG0到sG1)随时间推移病情逐渐严重,另外一组患者(聚类sG0到sG2),随时间推移病情趋向缓解。分析数据显示,相反的疾病发展进程与信号通路差异相符合,信号通路apoptosis,type I interferon和type II interferon在聚类sG1中上调,但在sG2中下调。

图4.UMAP的细分聚类结构对应着临床特征,图片来源:Cell Reports 

研究总结

该研究比较了四种主要的降维算法PCA、MDS、t-SNE和UMAP在分析较大样本量转录组测序数据集中的表现。研究发现,在区分批次效应、鉴定生物分组和发掘聚类细分结构上,UMAP要远远优于PCA和MDS,和t-SNE相比也具有一定的优势。基于此,研究团队建议在分析较大样本量的转录组测序数据集时采用UMAP降维算法,加强样本聚类异质性研究和基因表达差异分析。

参考文献:

Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data.DOI:https://doi.org/10.1016/j.celrep.2021.109442

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:, , ,

热评文章