自然语言处理和通用大型语言模型(LLM)的最新应用进展已经扩展到生物学领域,例如GPT-4。但将这些方法应用于单细胞数据的自动处理仍存在一些挑战。近日,北京大学汤富酬教授团队在Genome Biology发表文章“scExtract: leveraging large language models for fully automated single-cell RNA-seq data annotation and prior-informed multi-dataset integration”。该研究提出了一个利用LLM进行scRNA-seq数据预处理、注释和集成的自动化分析框架scExtract。
scExtract首次将LLM与单细胞分析深度融合,可以使用注释感知方法从已发表研究文章中全自动提取和集成单细胞RNA-seq数据,显著提升了单细胞数据集处理效率,并在基准测试中优于现有的参考传递方法。同时,研究人员开发了新的整合算法scanorama-prior和cellhint-prior,通过结合先验注释信息,在提高批处理校正效果的同时,保持了生物多样性的完整性。此外,研究通过整合14个数据集创建了一个包含44万个细胞的全面人体皮肤图谱,突出了scExtract框架在不同单细胞组学测序数据集中揭示新生物学见解方面的实用性和有效性。
scExtract只需要原始表达式矩阵和文章内容作为输入,根据文章中描述的原始方法自动执行预处理、聚类和注释操作。scExtract的自动化处理由两部分组成:基于LLM、结合文章背景信息的自动注释,以及以注释信息为指导的细胞类型整合与嵌入集成(图1B)。scExtract采用两轮注释:首轮根据文章背景和特征基因完成注释,然后对注释内容进行审查和调整。在数据集成中,研究人员改进了两个性能良好的软件包scanorama-prior和cellhint-prior,并将其集成到一个利用近似注释来增强数据集集成的框架中。该整合流程有效应对了异质性单细胞数据集中注释一致性与嵌入整合两方面的挑战,实现了从注释到整合的一体化自动化处理。
图1.scExtract的工作流程。
研究人员使用21个cellxgene手动注释数据集评估了scExtract注释的准确性,包括来自多种人体组织或器官样本的18个不同细胞类型,并将scExtract与三种已建立方法SingleR、scType和CellTypist进行比较。由于单细胞水平的噪声,SingleR和CellTypist在单细胞注释水平上运行,表现出明显的高估细胞类型数的倾向;利用标记基因进行细胞群注释的scType和scExtract显示出与筛选细胞类型数更好的相关性(图2B)。在注释准确性分析中,scExtract显示出明显的优势(图2D)。
图2.scExtract以高精度自动注释已发布的单细胞数据集。
在集成流程中,scanorama-prior需要额外的聚类信息以及细胞注释在嵌入空间上的相似性矩阵,同时加权细胞类型相似性矩阵,实现更精确的邻域构建。此外,scanorama-prior通过额外的位移向量,增强批次效应校正的效果,保留了细胞之间的生物学关系。由于scanorama-prior对注释错误较为敏感,研究人员在scExtract的整合流程中引入了cellhint-prior进行细胞类型协调,校正因LLM输出波动可能导致的命名不一致问题。研究人员利用胰腺单细胞RNA-seq数据集评估了scanorama-prior和cellhint-prior的性能(图3):scanorama-prior在保留细胞类型差异的同时,表现出优异的批次效应去除效果,并具有更好的嵌入性能;cellhint-prior增强了跨数据集注释的一致性,提高了对命名错误的容忍度。
图3.人类胰腺数据集中整合方法验证。
进一步,研究证实scExtract在全自动操作的同时保持了粒度和注释保真度。scExtract可以经济高效地处理新数据集,而不依赖于预先注释的参考数据集,在可伸缩性和可扩展性方面具有显著优势。值得注意的是,scExtract可以在20分钟内完成数据集的所有处理过程,成本不到1美元。随着语言模型的不断发展,预计scExtract的精确度和效率会进一步提高。此外,scExtract具有稳健的性能和即时灵敏度,并且在大规模图谱集成的综合评估证明了其可扩展优势。
研究人员利用scExtract自动整合了皮肤单细胞数据,获得了来自14篇文章的44万个细胞组成的综合数据集(图4),涵盖包括银屑病、特应性皮炎、痤疮和环状肉芽肿等多种病理状态,以及从新生儿到老年人群的不同发育阶段。分析确定了银屑病特有的CXCL14 +增殖的角质细胞亚群,其与抗炎功能相关。该研究强调了对角质细胞亚群进行更详细和标准化研究的必要性,为皮肤自身免疫性疾病的细胞动力学提供了有价值的见解。
论文原文:
Wu, Y., Tang, F. scExtract: leveraging large language models for fully automated single-cell RNA-seq data annotation and prior-informed multi-dataset integration. Genome Biol 26, 174 (2025). https://doi.org/10.1186/s13059-025-03639-x
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!