科研

首页 - 全部文章 - 科研 - Nat Commun | 杨跃东/曾远松团队联合华为、新格元开发基于1亿人类单细胞的8亿参数转录组基础模型CellFM

Nat Commun | 杨跃东/曾远松团队联合华为、新格元开发基于1亿人类单细胞的8亿参数转录组基础模型CellFM

单细胞大语言模型通过解码细胞的“分子语言”,为揭示生命奥秘和疾病机制提供了全新范式。然而,现有模型受限于数据规模与算力瓶颈,性能难以实现质的飞跃。针对这一挑战,中山大学杨跃东教授团队联合重庆大学曾远松团队、华为新格元生物科技,依托国家超算广州中心“天河星逸”超算系统的强大计算能力,基于国产智算芯片成功研发出全球规模最大的单细胞基础大模型CellFM。该模型创新性地整合了超1亿人类单细胞数据(规模达同类2倍以上),构建了8亿参数的深度学习框架(参数量超同类8倍),在生物表征学习和跨数据集泛化能力上取得重大突破。

近日,相关成果成功发表于国际顶尖学术期刊《Nature Communications》,CellFM是国产芯片训练大模型的一个成功案例,也是我国生物智能计算领域的重要研究进展,为精准医疗和药物研发提供了智能化新引擎。

8亿参数规模CellFM,领跑单细胞大模型

目前,面向单一物种的单细胞转录组大模型大多基于千万级细胞数据进行训练,在模型的泛化能力和复杂生物过程表征上存在明显局限。为突破这一困境,杨跃东教授联合团队整合公开的人类单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,构建了目前已知最大规模的高质量训练数据集(>1亿细胞),基于这一庞大数据集,研究团队创新性地开发了8亿参数的单细胞大模型CellFM,其规模为当前单一物种大模型的8倍。该模型采用自主设计的ERetNet架构,即一种高效Transformer变体,使模型能够轻松处理庞大且复杂的数据集。实验表明,CellFM在包括细胞注释、扰动预测和基因功能预测在内的各种单细胞下游应用中,性能均显著优于现有模型。

▲ CellFM模型图

CellFM赋能高精度基因功能预测

基因功能预测是生命科学研究的基础。传统的生物学研究往往依赖大量实验,而CellFM大模型则通过虚拟预测,依托“计算先行、实验验证”的AI for Science高效研究新范式,可快速锁定功能靶点。在不同生物学功能的基因功能预测任务中,CellFM展现出卓越性能:在三种二分类问题中的准确率(ACC)均位列第一。以剂量敏感性任务为例,其准确率较目前经典的单细胞基础模型UCEscGPT分别提升5.68%5.86%,且通过UMAP可视化可观察到更清晰的基因簇分布,凸显模型对基因功能特征的强大表征能力。

▲ 各模型在3种基因功能二分类任务中的ACC对比

CellFM助力靶点预测与扰动响应模拟

CellFM能够模拟细胞对基因敲除、过表达或药物处理的响应,快速筛选潜在的药物作用机制或基因调控结果。在扰动预测任务中,用CellFM的基因嵌入向量替换经典扰动模型GEARS的嵌入向量,在AdamsonNorman数据集上,差异基因变化的Pearson相关系数在所有对比模型中最优。此外,CellFM还能够根据扰动反向预测靶点基因,例如基于疾病样本中的异常细胞,逆向推导关键致病基因或药物靶点。数据显示,CellFM反向扰动预测的Top10命中率达81.8%,较scGPT提升18.1%;且Top3命中率更是达到了scGPT2倍,显著提升了寻找靶点基因的效率与精准度。

▲ 各模型扰动靶点基因预测命中率对比

CellFM训练背后的算力支柱

借助广州超算中心在超智融合领域多年来的技术积累,杨跃东教授团队为模型开发筑牢根基。该研究构建的大规模单细胞转录组通用表征模型CellFM,具备强大的跨任务泛化能力,能够广泛应用于细胞分类、扰动预测等多种下游任务。模型训练对算力和存储资源要求极高,得益于广州超算中心“天河星逸”强劲的智算能力、丰富的存储资源、星光多模式超算应用平台高效的资源调度能力,以及华为国产芯片的有力支持,团队通过混合精度训练与梯度累积策略,快速实现了CellFM的高效训练与优化。

CellFM基于超1亿细胞数据训练,构建了具有行业领先规模的深度学习框架,是继72种脊椎动物RNA大模型SpliceBERT(约2000万参数,Brief Bioinformatics 2024:bbae163)和药物多模态预训练模型MIGA6000万参数,Advanced Science 2024)之后,又一具有广泛适应性的生物预训练大模型。CellFM的成功构建为通用型单细胞基础模型开发提供了新范式,有望加速单细胞组学在多场景中的应用拓展,推动生命科学与智能计算的深度融合。

国家超算广州中心依托强大的计算资源、平台优势,以及广泛的用户合作基础,正在构建一站式生物医药高性能计算平台,致力于为用户提供零编码的生信数据分析,进而加速科学发现和决策进程。未来,广州超算中心智能生物医药团队将继续携手业内专家学者,在更多生物子领域拓展预训练模型研究,逐步构建面向多尺度生物系统的“星光生物医药大模型”,为生命科学与生物医药研究持续注入强劲动能!

杨跃东教授团队(最后通讯)在单细胞和空间转录组数据分析方面积累了丰富的经验,包括单细胞数据的补齐(iScience 2021:102393,入选“细胞出版社2021中国年度论文”)、批次效应消除及分类(BIB 2022: bbab570),基于序列的细胞注释(NCS 2024: PMID38600256),以及空间转录组数据生成(BIB 2022: bbac297)等,目前依托中国广州国家超级计算中心正在构建一站式生物医药高性能计算平台(https://bio-web1.nscc-gz.cn/database/SCHAP)。

第一作者曾远松助理研究员是重庆大学大数据与软件学院弘深青年教师,2023年博士毕业于中山大学(师从杨跃东教授、卢宇彤教授),长期从事AI+单细胞/空间多组学研究。在Nature Computational Science、Nature Communications等期刊发表论文20余篇(一作/共一10余篇),主持国自然青年基金、博士后创新计划等多项科研项目。获2024年ACM SIGBIO China优博奖、川渝科技学术优秀论文二等奖。

论文地址:

https://www.nature.com/articles/s41467-025-59926-5

代码地址:

https://github.com/biomed-AI/CellFM

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章