科研

首页 - 全部文章 - 科研 - NBT | 聊天就能分析基因表达?创新多模态AI模型通过对话轻松实现单细胞RNA测序数据解读

NBT | 聊天就能分析基因表达?创新多模态AI模型通过对话轻松实现单细胞RNA测序数据解读

单细胞RNA测序(scRNA-seq)是在单个细胞水平分析转录组的一项高通量技术,被广泛应用于肿瘤研究、发育生物学等领域。同时,大规模scRNA-seq也是人类细胞图谱的核心。scRNA-seq数据集正在迅速积累,规模庞大,分析和解释这些数据集是一项复杂的任务,需要生物信息学技能和特定应用的生物领域知识。为促进scRNA-seq数据分析,奥地利维也纳医科大学的研究团队开发了一款基于人工智能(AI)的基因表达分析工具CellWhisperer,利用自然语言技术通过聊天交互方式实现scRNA-seq数据解读。通过对比学习方法,研究团队基于100万份scRNA-seq数据及其AI优化的文本注释,构建了转录组及其文本注释的多模态嵌入模型CellWhisperer。研究团队将CellWhisperer与CELLxGENE浏览器整合,用户可通过图形界面与聊天功能相结合的方式,轻松实现基因表达的交互式探索。该成果已发表在Nature Biotechnology上,文章题为“Multimodal learning enables chat-based exploration of single-cell data”。

研究团队认为通过自然语言来分析数据是未来基于AI的生物信息学研究辅助工具的重要组成部分。该研究开发CellWhisperer工具旨在验证将自然语言作为与scRNA-seq数据集进行交互的直观方式这一想法的可行性。

CellWhisperer依托于一个能够处理转录组数据及文本注释的多模态AI嵌入模型,并结合了集成式聊天模型所具备的生物学知识。CellWhisperer允许用户用英语查询数据,而不需要遵循任何特定的格式或语法,支持自由文本搜索,能回答关于细胞的各种问题。该模型的反应是基于选定的组合scRNA-seq数据和生物知识的语言模型(LLM)。例如搜索“KLRD1在自然杀伤(NK)细胞中的作用是什么?”,回答“KLRD1(CD94)是一种受体,在NK细胞活化和细胞毒性作用。它可以识别靶细胞上的MHC I类分子,并触发NK细胞介导的细胞毒性。”

具体而言,CellWhisperer通过两个相互交织的AI模型实现了这一功能(图1a)。首先,CellWhisperer嵌入模型通过多模态对比学习整合了RNA图谱及其元数据衍生的文本注释,创建了转录组和文本的联合多模态嵌入。其多模态训练数据由LLM辅助管理,包括1,082,413对人类RNA-seq图谱和匹配的文本注释。同时,该嵌入模型采用了对比语言图像预训练(CLIP)架构,用Geneformer模型处理转录组中的基因表达,用BioBERT模型处理文本注释。使用传统的前馈神经网络层将两个结果向量映射到2,048维的多模态嵌入空间中,然后训练该模型将两个模态特定的嵌入放置在联合嵌入空间内的邻近位置。

其次,CellWhisperer聊天模型采用开放权重LLM来回答关于细胞状态的自由文本问题,同时考虑用户提供的转录组谱作为多模态输入,并生成了一个包含106610个对话的训练数据集,其中包括简单的基于规则的对答和更复杂的LLM生成的关于转录组和细胞的对话。结合这两种模型,CellWhisperer可以实现基于交互式聊天的scRNA-seq数据探索,并被集成到广泛使用的CELLxGENE浏览器中。

研究团队验证了CellWhisperer嵌入模型检索与给定文本注释对应的转录组的能力,发现其AUROC值为0.927。经过训练的CellWhisperer嵌入模型可以使用自由文本查询提示查找匹配的转录组。此外,为验证CellWhisperer处理、组织和注释大型转录组数据集的能力,研究人员对705,430个GEO衍生的人类转录组的CellWhisperer嵌入进行了聚类,并使用CellWhisperer聊天模型对这些聚类进行了文本注释(图1b)。CellWhisperer嵌入成功捕获了细胞类型、发育阶段、组织、疾病和其他细胞特征(图1c)。以上结果表明,CellWhisperer多模态模型可以实现从转录组到文本的无缝转换,反之亦然,并且可以对基于英语聊天的bulk和scRNA-seq数据进行分析。

图1.CellWhisperer模型在转录组数据自然语言分析中的应用概述。

研究团队对CellWhisperer进行了进一步的验证。在基于细胞转录组以零采样方式预测细胞特征(如细胞类型、疾病、组织和器官)方面,CellWhisperer在来自24个器官483152个细胞的scRNA-seq图谱数据集中,成功区分了20种常见细胞类型,AUROC值为0.94(图2b,c)。在所有177个注释的细胞类型中,AUROC值为0.91;对于来自ImmGen财团的大量免疫细胞RNA-seq图谱和近期发表的亚洲个体免疫细胞scRNA-seq数据集,其AUROC值高于0.99。同时,CellWhisperer能够预测人类疾病数据集中代表的229种疾病亚型,AUROC值为0.82(图2d)。在Tabula Sapiens数据集(AUROC: 0.75)和人类疾病数据集(AUROC: 0.87)中,CellWhisperer还能够以较高性能预测bulk和单细胞转录组的起源组织(图2d)。

图2.通过零样本预测细胞特征的方法评估CellWhisperer嵌入模型性能。

此外,研究团队将CellWhisperer应用于多个用户提供的scRNA-seq数据集中发现标记基因的常见和重要任务,产生的结果以相当的精度补充了已报道的器官标记基因。在包含3-38天人类胚胎的95,092个scRNA-seq测序数据的独立数据集中,CellWhisperer能够识别多个与器官发育相关的标记基因(图3)。

图3.CellWhisperer基于人类胚胎scRNA-seq数据集分析器官发育过程。

为了使CellWhisperer广泛用于基于聊天的转录组数据分析,研究人员将CellWhisperer驱动的聊天框与CELLxGENE浏览器集成(图4a),实现了CellWhisperer功能的用户友好访问,并展示了视觉检查和自然语言聊天的互补性,用于scRNA-seq数据的交互式探索。

图4.使用CellWhisperer对scRNA-seq数据进行基于交互式聊天的分析。

该研究开发的CellWhisperer依托大规模社区数据资源,将转录组数据与文本注释相连接,从而支持用户通过自然语言交互方式,对scRNA-seq数据进行深度探索,这为基于自然语言的scRNA-seq数据探索提供了概念证明。CellWhisperer的性能评估和使用实例说明了转录组和文本注释的多模态模型可促进生物医学数据的探索性分析。研究团队期待自然语言发展成为广泛应用于生物医学数据交互分析的一个渠道,以补充视觉数据检查和基于编程的数据分析。CellWhisperer软件、模型、训练数据和源代码链接:

https://cellwhisperer.bocklab.org

原文信息:

Schaefer, M., Peneder, P., Malzl, D. et al. Multimodal learning enables chat-based exploration of single-cell data. Nat Biotechnol (2025). https://doi.org/10.1038/s41587-025-02857-9

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章