张学工教授:
人体细胞图谱需要进行“组装”,这是我们提出来的概念。类比于人类基因组的组装,细胞图谱组装的概念和做法并不是那么简单。基因组有个基本的一维骨架,有人认为细胞图谱就是要建立一个人体三维坐标骨架,只需把观测到的细胞组装到坐标系中相应的位置上。对于比较简单的生物,如只有一千个左右细胞的线虫,这种确定性组装的思路是可行的,但对于更复杂的动物和人来说,这种组装至少在目前认识和技术下是不可能的。2021年,我们在《国家科学评论》在线发表的观点文章(Chen et al, NSR, 2022)中阐述了这一点:对于人类这种由几十万亿个细胞组成的复杂生命体,不同器官和组织的细胞构成不同,但并非每个细胞都有确定的宿命性的绝对位置。人体各种生理功能是由细胞组成的局部系统决定的,在这个局部系统中,每个细胞精确的空间位置并不是确定性排布的,不同人之间也不是一一对应的。试图用一套标准三维坐标体系来索引所有细胞是不现实也不科学的。另一方面,我们在与阜外医院合作对人心脏不同部位取样构建心脏细胞图谱的过程中发现,细胞间的差异不但存在于不同解剖部位之间,而且在同一解剖部位内又存在更细致的多种转录组变化梯度(Chen et al, Circulation, 2022)。这些观察和分析让我们认识到,细胞图谱的组装,不是对各器官采集足够单细胞数据后按解剖学部位堆积起来就能完成的,而需要全新的技术路线和框架。目前国际上存在的较大规模细胞图谱或单细胞数据库,实际上实现的都是“文件级”细胞图谱组装,而完整的细胞图谱需要以细胞为中心的“细胞级”组装。
发表在《国家科学评论》上的观点文章那么,什么是“细胞级组装”呢?简单说,就是将人体的各种细胞有组织地放到一个巨大的数据集合体中,利用集合体展现由细胞组成的组织、器官、系统和人体的全部关系和规律。当这个集合体包含的细胞数目和每个细胞的信息量足够完整时,这个细胞数据集合体就是一个数字化细胞构成的虚拟人体。在这个虚拟人体上展现各种生命现象,就是我们说的“数基生命系统”,它是碳基细胞组成的人体在数字和数学空间中的镜像。落实到当前现实的单细胞数据上,细胞级组装就是对不同来源的人体单细胞数据经过统一质控和预处理后,按统一信息框架集成到同一个数据集合体中,保存关于每个细胞的所有信息,包括基因表达信息、样本的解剖学信息、空间信息,也包括细胞类型注释信息、算法产生的表示空间向量信息,还包括样本捐赠者的各种元数据和数据采集中的各种技术信息。这个统一信息框架需支持对所有细胞按照可能用于索引的信息去检索,从而支持按照各种可能的整体或局部坐标体系进行展示和分析。在这样的框架下组装起来的图谱,并没有解决或尝试解决唯一的坐标体系问题,而是提供了适应人体内在多层次多尺度多维度索引体系的通用解决方案。
我们在《国家科学评论》的观点文章里阐述了对人体细胞图谱统一信息框架的需求分析,iScience上刚刚发表的工作就是我们对这一理论的具体实现。我们基于这个信息框架对来自一百多个数据集的100多万个健康单细胞数据样本进行了收集和组装,形成了覆盖人体38个器官的集成细胞图谱,命名为hECA(human Ensemble Cell Atlas)。与同时发表的HCA细胞图谱相比,hECA是第一个真正实现细胞级组装的人体细胞图谱,包含了理想的细胞图谱信息框架应该具备的基本要素,并在之上开发了“数基细胞实验”等细胞图谱应用新范式,展示了未来完整的人体细胞图谱的雏形。
hECA的主要特征和功能
张学工教授:
当前hECA 1.0版本包含的数据虽然有限,但已经能展示出集成细胞图谱所提供的巨大潜力和崭新应用场景。
hECA提供对器官、细胞、基因的全方位多视角“肖像”。此前,我们对器官、细胞、基因的认识都是基于不同层面:对器官的认识主要是解剖学层面和生理功能层面,对细胞的认识主要是细胞生物学层面,对基因的认识主要是分子生物学层面,这些认识就像是对这些生物学实体在特定视角下的“快照”,无法全面反映它们在生命剧本中所扮演的角色。hECA对这些实体提供了全方位多视角的定量刻画:对于一个器官,用户可以浏览器官及其各部位的定量细胞类型构成、基因表达分布;对于一个细胞类型,可以浏览细胞在各种器官中所占比例、所有基因在这个细胞类型中的表达量分布;对于一个基因,可以浏览其在各种器官和各细胞类型中的相对表达丰度分布。随着集成细胞图谱中包含的细胞数目和每个细胞数据种类的不断增加,这种对生物学实体的“肖像式”全息刻画将日益完善,进一步结合包括细胞通讯、基因相互作用等实体间关系信息,改变当前主要用标记基因、上调下调等手段来粗略刻画生物实体特性的现状,“栩栩如生”地还原生物实体作为复杂系统构成元件的全方位性质。
hECA提供用户可快速定制的细胞参照系。在单细胞研究中,以细胞图谱作为参照系对用户自有的数据进行标注是目前最常见的图谱应用场景。为此,计算生物学家发展了多种利用参照细胞集合为新细胞进行标注的算法,包括多种机器学习方法。这些算法通常是基于作者预先收集的大量单细胞数据开发的,随着越来越多实验室对各种生物学和医学问题开展单细胞研究,经常需要根据研究对象定制特殊的细胞参照系。在hECA中,由于采用细胞级组装,用户可以按照任意条件或多种条件组合从图谱中筛选所需的细胞,快速构建定制的细胞参照系。比如可以通过hECA网页交互或两行ECAUGT代码从全身各器官筛选出满足某种基因表达条件的所有T细胞,在几秒内即可构建出自己定制的T细胞子图谱,而且可以多次通过修改代码调试用不同条件筛选构建的参照系。
通过数基细胞筛选快速构建定制细胞参照系
我们把这种在细胞图谱中用代码筛选符合条件细胞的操作称作“数基细胞筛选”(“in data” cell sorting)。正如人们通过细胞筛选实验从组织样本中分离所需的细胞一样,数基筛选是从hECA这个虚拟人体中分离所需细胞,这正是细胞级组装带来的革命。传统用于细胞筛选实验的标志物往往局限于有限的表面蛋白,数基细胞筛选则不受此限制,可以用细胞中包含的任意信息组合进行筛选。hECA内部支撑这一功能的系统叫做ECAUGT(读作e-caught,意指“电子捕获”),让用户把传统的细胞实验变成编写易读的代码。
hECA提供数基虚拟药物试验。作为数基细胞筛选的高级应用,用户可以直接在细胞图谱上研究传统实验难以研究的问题。比如CAR-T治疗是一种人们非常看好的肿瘤靶向治疗方案,但它可能带来的副作用却不易评估,因为可能的副作用是全身性的,在无法猜测副作用会出现在什么器官中的情况下无法通过体外实验进行研究。有科学家通过手工收集大量文献中的数据,逐一研究特定CAR-T治疗除了作用于癌细胞之外还可能作用到什么器官的什么细胞,但这种研究模式效率低、工作量大,而且需要对治疗的脱靶目标有很好的预先猜测。hECA提供了通过数基细胞实验方式研究这一问题的有效解决方案:用户只需要根据CAR-T作用的靶基因设计筛选条件,就可以快速把人体各器官可能受到CAR-T作用的细胞都筛选出来,进而分析它们都是什么细胞类型、来自哪些器官,并评估药物对这些器官可能的副作用。我们在iScience发表的文章中介绍了两个这样的实验实例。随着hECA包含的细胞数目和信息类型不断增加,这种数基细胞实验将成为未来药物研究的重要手段,开创“数基药物试验”的新时代。
利用hECA开展数基药物试验
首先是数据存储系统的挑战。虽然大数据技术已经发展了很多年,但大部分商用数据库系统能支持的是数据实例多、每个实例所含属性较少的情况。在细胞图谱中,每个单细胞就记录数万个基因的表达值,同时还要记录更多其他信息。要实现“细胞级”组装,需要能支持超宽超深列表的数据库,现有一般数据库系统无法支撑,但高端大数据系统的成本学术界无法负担。这也是其他细胞图谱采用文件级存储和管理的原因:用文件方式存储一个个数据集,只用数据库来存储关于这些文件的信息。比如,HCA官方的数据集成平台当前包含了超过35万个单细胞数据文件。为解决这一挑战,江瑞教授研发了一套可以在个人电脑和服务器上支持超宽超深数据存储、管理和索引的数据库系统,在hECA中称作uGT,意思是“统一超大表格”。uGT能支持超过10亿个细胞、每个细胞有上百万个数据项的细胞图谱,且对这样大规模数据的检索只需要秒级的时间。这是hECA能实现细胞级组装的核心软硬件基础。
另一个挑战是细胞的注释体系。此前国际上还没有一个统一的单细胞类型标注体系,不同单细胞研究采用不同的细胞标注,甚至有的研究中同一实验室对同一批数据进行的标注也不完全一致。这是组装细胞图谱必须解决的问题。我们分析现有关于细胞类型划分和标注的知识,提出了一套统一的层次化标注框架uHAF,把解剖学标注与细胞类型标注统一为一个多层次、可扩展的知识图。uHAF借鉴已有的解剖学知识体系和细胞分类体系,整合目前收集的数据集中用到的解剖学关系和细胞类型,对不同文献采用的标注进行统一。更重要的,uHAF定义了可扩展的表示结构,兼容未来知识体系的不断丰富和完善,并将在下一版本中设计由科学家共同体合作修正和扩展知识图的功能,与HCA等计划的标准体系形成对接,把uHAF打造成细胞图谱组装标注的国际标准。
hECA系统背后的第三项关键技术就是基于uGT和uHAF实现的细胞灵活检索软件引擎。这个引擎以ECAUGT作为应用编程界面API向用户提供,同时也支撑了hECA网页的图形用户界面。
hECA研究团队的部分成员
相关文献:
[1] Chen S, Luo Y, Gao H, et al. hECA: the cell-centric assembly of a cell atlas[J]. iScience, 2022: 104318.
[2] Chen S, Luo Y, Gao H, et al. Toward a unified information framework for cell atlas assembly[J]. National Science Review, 2022, 9(3): nwab179.
[3] Chen L, Hua K, Zhang N, et al. Multifaceted spatial and functional zonation of cardiac cells in adult human heart[J]. Circulation, 2022, 145(4): 315-318.
[4] Zedao Liu & Zemin Zhang, Mapping cell types across human itssues [J], Science, 2022, 376(6594): 695-696.
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!