单细胞测序技术的突破性进展极大推动了细胞异质性研究,其中单细胞染色质可及性测序通过解析染色质可及性图谱,为揭示转录调控网络和表观基因组异质性提供了单细胞分辨率的关键工具。细胞类型注释是单细胞数据分析中的关键任务。然而,单细胞染色质可及性数据的高噪声与极度稀疏等特性,为该类数据的细胞类型自动注释任务带来了显著挑战。现有自动注释方法在跨批次、跨组织和跨物种场景中泛化性不足,尤其缺乏对训练集未涵盖的新细胞类型的识别能力;此外,多数方法缺乏可解释性,难以关联细胞类型特异性的调控机制。
近日,南开大学数学科学学院陈盛泉教授团队在Genome Biology上发表了题为“MINGLE: a mutual information-based interpretable framework for automatic cell type annotation in single-cell chromatin accessibility data”的文章。文章针对单细胞染色质可及性数据提出了细胞类型自动注释框架MINGLE。MINGLE融合了对比学习与图神经网络进行细胞拓扑建模,并创新性地引入凸包识别策略与互信息解释机制,显著提升了稀有及新型细胞类型识别能力与模型可解释性。
MINGLE是一个基于互信息构建的可解释性细胞类型自动注释框架,旨在精准解析单细胞染色质可及性数据中的细胞异质性。该方法首先设计了基于掩码的类别平衡策略,以有效缓解稀有细胞类型样本不足对模型训练的不利影响。在表示学习阶段,MINGLE借助对比学习框架构建高质量的细胞低维嵌入,并完成初步注释。在此基础上,MINGLE进一步基于细胞嵌入构建K近邻图,并引入图卷积网络开展半监督学习,实现对细胞类型的第二轮注释。模型通过融合两轮注释结果以提升鲁棒性与精度。为识别新型细胞类型,MINGLE在低维子空间中为已知细胞类型构建凸包结构,以识别测试集中的新细胞类型。此外,MINGLE基于互信息最大化准则训练特征选择器,从高维染色质可及性数据中自动筛选细胞类型特异性区域,为注释结果提供可靠的生物学解释(图1)。
图1 MINGLE算法工作流程图
研究团队利用来自多个物种、组织和测序平台的单细胞染色质可及性数据集进行验证,结果表明MINGLE在已知细胞类型注释任务中,尤其在针对稀有细胞类型的识别任务中显著优于现有方法。同时,该方法能够有效鉴定单细胞染色质可及性数据集中的新细胞类型,为发现未知生物功能及挖掘新治疗靶点、生物标志物提供了有力支持。通过遗传力分析、组织特异性表达富集分析及功能富集分析等下游分析进一步证实,MINGLE不仅具备高精度的注释能力,还具有良好的可解释性,能够深入揭示细胞类型特异性调控机制及疾病相关遗传变异。更为重要的是,MINGLE在跨批次、跨组织和跨物种的注释场景中表现优异,且对不同不平衡程度和数据规模的数据集展现出较强的鲁棒性,充分凸显了其在复杂应用场景中的泛化性与可靠性。
综上所述,该研究提出了一种基于互信息的可解释框架MINGLE,以实现单细胞染色质可及性数据的精准细胞类型注释,并在跨物种、跨组织、跨测序平台的多样化数据集上,展现出对现有方法在稀有细胞类型识别、新细胞类型发现及跨场景泛化性方面的显著提升。随着单细胞表观基因组学研究的深入和大规模单细胞染色质可及性数据集的涌现,MINGLE通过整合对比学习、图拓扑建模及互信息解释机制,能够有效解析细胞异质性背后的调控网络,为揭示基因表达调控规律和构建单细胞水平的表观遗传图谱提供关键技术支撑。
该研究得到了国家自然科学基金、中国科协青年人才托举工程、南开大学百名青年学科带头人计划等项目的资助。南开大学硕士生李斯羽、本科生黄逸凡为本文的共同第一作者,南开大学数学科学学院陈盛泉教授为本文的通讯作者。
原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03603-9
相关代码与数据:https://github.com/BioX-NKU/MINGLE
课题组主页:https://biox-nku.cn/
本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!