
研究团队认为通过自然语言来分析数据是未来基于AI的生物信息学研究辅助工具的重要组成部分。该研究开发CellWhisperer工具旨在验证将自然语言作为与scRNA-seq数据集进行交互的直观方式这一想法的可行性。
CellWhisperer依托于一个能够处理转录组数据及文本注释的多模态AI嵌入模型,并结合了集成式聊天模型所具备的生物学知识。CellWhisperer允许用户用英语查询数据,而不需要遵循任何特定的格式或语法,支持自由文本搜索,能回答关于细胞的各种问题。该模型的反应是基于选定的组合scRNA-seq数据和生物知识的语言模型(LLM)。例如搜索“KLRD1在自然杀伤(NK)细胞中的作用是什么?”,回答“KLRD1(CD94)是一种受体,在NK细胞活化和细胞毒性作用。它可以识别靶细胞上的MHC I类分子,并触发NK细胞介导的细胞毒性。”
具体而言,CellWhisperer通过两个相互交织的AI模型实现了这一功能(图1a)。首先,CellWhisperer嵌入模型通过多模态对比学习整合了RNA图谱及其元数据衍生的文本注释,创建了转录组和文本的联合多模态嵌入。其多模态训练数据由LLM辅助管理,包括1,082,413对人类RNA-seq图谱和匹配的文本注释。同时,该嵌入模型采用了对比语言图像预训练(CLIP)架构,用Geneformer模型处理转录组中的基因表达,用BioBERT模型处理文本注释。使用传统的前馈神经网络层将两个结果向量映射到2,048维的多模态嵌入空间中,然后训练该模型将两个模态特定的嵌入放置在联合嵌入空间内的邻近位置。
其次,CellWhisperer聊天模型采用开放权重LLM来回答关于细胞状态的自由文本问题,同时考虑用户提供的转录组谱作为多模态输入,并生成了一个包含106610个对话的训练数据集,其中包括简单的基于规则的对答和更复杂的LLM生成的关于转录组和细胞的对话。结合这两种模型,CellWhisperer可以实现基于交互式聊天的scRNA-seq数据探索,并被集成到广泛使用的CELLxGENE浏览器中。
研究团队验证了CellWhisperer嵌入模型检索与给定文本注释对应的转录组的能力,发现其AUROC值为0.927。经过训练的CellWhisperer嵌入模型可以使用自由文本查询提示查找匹配的转录组。此外,为验证CellWhisperer处理、组织和注释大型转录组数据集的能力,研究人员对705,430个GEO衍生的人类转录组的CellWhisperer嵌入进行了聚类,并使用CellWhisperer聊天模型对这些聚类进行了文本注释(图1b)。CellWhisperer嵌入成功捕获了细胞类型、发育阶段、组织、疾病和其他细胞特征(图1c)。以上结果表明,CellWhisperer多模态模型可以实现从转录组到文本的无缝转换,反之亦然,并且可以对基于英语聊天的bulk和scRNA-seq数据进行分析。

图1.CellWhisperer模型在转录组数据自然语言分析中的应用概述。
研究团队对CellWhisperer进行了进一步的验证。在基于细胞转录组以零采样方式预测细胞特征(如细胞类型、疾病、组织和器官)方面,CellWhisperer在来自24个器官483152个细胞的scRNA-seq图谱数据集中,成功区分了20种常见细胞类型,AUROC值为0.94(图2b,c)。在所有177个注释的细胞类型中,AUROC值为0.91;对于来自ImmGen财团的大量免疫细胞RNA-seq图谱和近期发表的亚洲个体免疫细胞scRNA-seq数据集,其AUROC值高于0.99。同时,CellWhisperer能够预测人类疾病数据集中代表的229种疾病亚型,AUROC值为0.82(图2d)。在Tabula Sapiens数据集(AUROC: 0.75)和人类疾病数据集(AUROC: 0.87)中,CellWhisperer还能够以较高性能预测bulk和单细胞转录组的起源组织(图2d)。

图2.通过零样本预测细胞特征的方法评估CellWhisperer嵌入模型性能。
此外,研究团队将CellWhisperer应用于多个用户提供的scRNA-seq数据集中发现标记基因的常见和重要任务,产生的结果以相当的精度补充了已报道的器官标记基因。在包含3-38天人类胚胎的95,092个scRNA-seq测序数据的独立数据集中,CellWhisperer能够识别多个与器官发育相关的标记基因(图3)。

图3.CellWhisperer基于人类胚胎scRNA-seq数据集分析器官发育过程。
为了使CellWhisperer广泛用于基于聊天的转录组数据分析,研究人员将CellWhisperer驱动的聊天框与CELLxGENE浏览器集成(图4a),实现了CellWhisperer功能的用户友好访问,并展示了视觉检查和自然语言聊天的互补性,用于scRNA-seq数据的交互式探索。

图4.使用CellWhisperer对scRNA-seq数据进行基于交互式聊天的分析。
https://cellwhisperer.bocklab.org
原文信息:
Schaefer, M., Peneder, P., Malzl, D. et al. Multimodal learning enables chat-based exploration of single-cell data. Nat Biotechnol (2025). https://doi.org/10.1038/s41587-025-02857-9
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!