科研

首页 - 全部文章 - 科研 - 让AI像细胞一样思考!最新AI虚拟细胞模型GREmLN可帮助发现癌细胞迹象

让AI像细胞一样思考!最新AI虚拟细胞模型GREmLN可帮助发现癌细胞迹象

当地时间710日,陈-扎克伯格倡议(CZI)发布了最新的人工智能(AI)虚拟细胞模型GREmLN(基于基因调控嵌入的大型神经网络模型)。该模型旨在通过关注控制细胞行为的关键网络,帮助研究人员更好地理解细胞行为,更准确地预测细胞健康与疾病状态的转变,从而使癌症等复杂的生物问题更容易解决。

图:GREmLN专注于定义基因如何相互作用和相互影响的“分子逻辑”。上图突出显示了该模型如何独特地捕捉基因相互作用以及主调控因子的影响。

GREmLN模型是CZI在构建一系列AI生物模型的重大挑战的一个里程碑,这些模型可以预测和理解(从分子到整个生物系统)各个层面的细胞工作,并帮助科学家预防、治疗和管理所有疾病。GREmLN专注于定义基因如何相互作用和相互影响的“分子逻辑”,帮助了解是什么导致它们出错,进而引起癌症等疾病。目前,该成果已在bioRxiv预印本发布,研究团队描述了GREmLN的架构,提供了部分验证数据,并与其他基于单细胞基因表达数据训练的主流虚拟细胞模型进行了比较,包括scGPTGeneformerscFoundation

通过基因表达数据可以分析细胞身份和行为转变单细胞RNA测序等技术为细胞研究提供了极其丰富的数据,使科学家能够逐个分析健康细胞和疾病细胞的分子活动,但只能了解哪些基因被开启/关闭。近年来,机器学习等AI方法快速发展,为有效地针对单细胞中某些突变的深入分析提供了工具。现有的大多数机器学习AI工具虽然能够识别特定基因活动模式与疾病之间的关联,但无法解释疾病成因或提出有效应对方案。

此前开发的模型是采用顺序逻辑运行,基于上下文预测后续内容,但这在生物学中并不适用,第1个基因可能调控第20,000个基因。GREmLN将生物学知识整合到模型的核心,其不是仅仅基于任意的统计关联来预测哪些基因重要,而是从基因调控网络(GRNs开始

GRNs描述了哪些基因调节其他基因——例如编码转录因子的基因,以及激活或抑制其他基因表达的蛋白质。这些网络因细胞类型而异,并受到细胞功能、身份和环境的影响。基于,由Chan Zuckerberg Biohub中心主席Andrea Califano与哥伦比亚大学Mingxuan Zhang合作领导的GREmLN团队,重新设计了驱动现代AI模型的transformer attention架构,并对其进行了生物学改造。

GREmLN的设计没有考虑所有可能的基因组合,而是关注在生物学上合理的基因对。通过这种方式,模型可以模拟真实细胞中的信息流动,而不是费力地处理数百万个不太可能的基因相互作用来筛选。为了高效实现这一目标,GREmLN采用了一种被称为Chebyshev polynomials的算法以近似的方式描述影响如何在GRN中传播。这使得模型能够在不需要大量计算能力的情况下结合基因之间的长距离依赖性。

Andrea Califano教授表示:“用网络图来引导算法的attention架构,虽然简化了解决方案,但在数学上却变得更复杂我们必须开发全新的算法。GREmLN是一种理解细胞如何做出决定的新方法,包括这些决定在癌症等疾病中是如何出错的。该模型提供了一种以生物学为基础的方法,利用AI获得对健康和疾病的新见解。重要的是,该模型并不是重塑生物学以适应AI,而是重塑AI以适应生物学。”

GREmLN最初是在大约1100万个单细胞RNA测序数据集上训练的,包括162种不同的细胞类型,涵盖了大脑、肺、肾和血液等组织。所有数据均来自于开放的生物信息学工具Chan Zuckerberg CELLxGENE平台。

与传统将基因视为字符串中的单个标记不同,GREmLN专注于定义基因如何相互作用和相互影响的分子逻辑,类似于细胞内的对话。因此,GREmLN为每个基因构建了一个“嵌入向量”,这种高度丰富的向量表征不仅能捕捉基因的活性水平,更能揭示其在整体网络中的功能定位。这些嵌入向量可应用于多种下游任务:例如识别未知样本的细胞类型、从已知基因子集重建基因表达模式,以及预测新型未知细胞类型中的调控相互作用。该模型为研究人员提供一种追踪关键变化的方法,以揭示疾病的早期迹象和可能的新治疗靶标

在与GeneformerscGPTscFoundation等优秀模型的直接对比中,GREmLN在多个基准测试中表现更胜一筹,尤其在预测癌症浸润免疫细胞的基因关联这一极具挑战性的任务上——这类细胞的行为模式往往与其健康细胞大相径庭。更重要的是,GREmLN仅使用了其他基础模型三分之一到十分之一的训练数据和参数配置,这使其成为一款更灵活高效的模型。

文章共同通讯作者、CZI人工智能高级总监Theofanis Karaletsos表示:“理解细胞行为意味着理解每个细胞内部发生的对话网络。GREmLN能以一种以前从未实现的方式捕捉到这种复杂性。这是朝着CZI构建模拟和预测细胞行为系统迈出的第一步。”

GREmLN可以驱动广泛的研究应用,帮助科学家理解生命本身的复杂逻辑。通过捕捉基因在不同环境和细胞类型中相互调控的规律,GREmLN模型能帮助科研人员追溯疾病起源。例如,对于恶性细胞状态,GREmLN可精准定位引发细胞转化的关键基因异常,并揭示其逆转机制。在免疫治疗领域,通过GREmLN绘制T细胞和巨噬细胞等免疫细胞接收的具体指令,研究人员可以对免疫细胞进行重新编程,引导它们更有效地对抗癌症、自身免疫性疾病或感染。在新药研发时,GREmLN能够精准识别起主导作用的调控基因,进而设计出更精准有效的药物,直击疾病根源而非仅治标。此外,由于能实时学习真实细胞在不同条件下的行为模式,GREmLN还能预测靶点如何随癌症发展或肿瘤产生耐药性等变化而改变,就像一个智能导航系统,让科学家能精准锁定治疗的关键位置和时机。

GREmLNCZI开发更通用AI虚拟细胞模型的基础之一未来,研究团队计划整合更丰富的生物学背景信息,不仅限于影响基因表达的相互作用。目前,CZI已计划使用专为AI模型训练而生成的“十亿细胞计划”数据来训练GREmLN迭代版本。其迭代版本可能包含蛋白质相互作用、细胞间通讯支持机制等关键层面,这些对免疫系统研究至关重要。当所有新增维度完全整合后,GREmLN还可能拓展至脑部疾病、炎症反应及免疫紊乱等领域。研究人员可利用该技术监测脑细胞的早期变化、预测免疫细胞的应激反应,并模拟细胞对新药的潜在响应。

GREmLN模型使细胞研究从描述性生物学转向了预测性生物学,将帮助研究人员预测生物系统的运作方式以及如何改变它们可能的未来轨迹,加速预防、治疗和管理所有疾病的科学进程。

参考资料:

1.https://chanzuckerberg.com/newsroom/gremln-ai-model-launch/

2.https://chanzuckerberg.com/blog/teaching-ai-think-like-cell-gremln/

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章