首个细胞级组装的人体集成细胞图谱hECA发布！深度对话张学工教授：探索细胞图谱应用新范式

陈初夏人物, 科研 2022-05-21

随着单细胞组学技术的蓬勃发展，大量单细胞组学数据的积累为建立人体器官或全身所有细胞的生物分子图谱提供了越来越多的资源。因此，科学家们发起了雄心勃勃的计划，例如人类细胞图谱（HCA），人类生物分子图谱计划（HuBMAP）和人类发育细胞图谱（HDCA）等来构建细胞图谱。5月12日，HCA合作组等在Science发表了4篇研究论文，提供了跨人体33各器官共计超过百万个细胞的单细胞数据。但细胞图谱组装仍面临重大的信息学挑战。2022年5月20日，清华大学张学工教授团队在iScience上正式发表了研究文章“hECA: the cell-centric assembly of a cell atlas”。研究团队开发了一个统一的信息学框架，用于细胞中心数据无缝组装，并从分散的数据中构建了人类集成细胞图谱（hECA）。据悉，这是首个细胞级组装的人体集成细胞图谱，汇集了来自116个已发表数据集的1,093,299个已标记的人类细胞，涵盖38个器官和11个系统。为深入了解该研究成果，测序中国特邀张学工教授进行了深度专访，为我们解读hECA背后的思想、核心技术和全新医学应用。以下为采访实录。

测序中国：张老师您好，恭喜您的团队在iScience上正式发表了首个细胞级组装的人体集成细胞图谱hECA。能否介绍一下所谓“细胞级组装”是什么含义？为什么说hECA是国际上第一个集成细胞图谱？

张学工教授：

这个问题非常关键，要回答它需要从头思考到底什么是人体的“细胞图谱”。人们使用了各种比喻来描述它，比如“人体的谷歌地图”、“人体细胞的元素周期表”、“细胞分辨率的人体解剖”等，但人体细胞图谱到底应该是什么呢？自2017年人类细胞图谱HCA项目启动以来，学术界一直在讨论1.0版的人体细胞图谱应该是什么样子。目前已经发表或公开的细胞图谱工作，包括刚刚发表的这四篇文章中提供的图谱，都是采集大量各种单细胞数据，经过对重要生物学问题的深入研究获得有价值的科学发现，而对数据则按项目进行文件管理和索引。从信息角度和图谱建设角度，这种做法实际上是“数据堆放”，并不能建成作为一个完整信息系统的细胞图谱，是综合深入的大规模单细胞研究。另一方面，很多研究采用机器学习等方法对大量单细胞数据进行统一整合，把不同来源的数据映射到同一个数学表示空间中，进行细胞类型和变化轨迹的分析等。这样构成的细胞图谱可以叫做“整合式细胞图谱”，它们把多个数据集整合起来服务于细胞类型识别等下游任务，但这种整合一般是在抽象的表示空间中进行，往往针对明确的下游应用任务，并没有在原始观测空间把细胞“组装”成完整的图谱。

人体细胞图谱需要进行“组装”，这是我们提出来的概念。类比于人类基因组的组装，细胞图谱组装的概念和做法并不是那么简单。基因组有个基本的一维骨架，有人认为细胞图谱就是要建立一个人体三维坐标骨架，只需把观测到的细胞组装到坐标系中相应的位置上。对于比较简单的生物，如只有一千个左右细胞的线虫，这种确定性组装的思路是可行的，但对于更复杂的动物和人来说，这种组装至少在目前认识和技术下是不可能的。2021年，我们在《国家科学评论》在线发表的观点文章（Chen et al, NSR, 2022）中阐述了这一点：对于人类这种由几十万亿个细胞组成的复杂生命体，不同器官和组织的细胞构成不同，但并非每个细胞都有确定的宿命性的绝对位置。人体各种生理功能是由细胞组成的局部系统决定的，在这个局部系统中，每个细胞精确的空间位置并不是确定性排布的，不同人之间也不是一一对应的。试图用一套标准三维坐标体系来索引所有细胞是不现实也不科学的。另一方面，我们在与阜外医院合作对人心脏不同部位取样构建心脏细胞图谱的过程中发现，细胞间的差异不但存在于不同解剖部位之间，而且在同一解剖部位内又存在更细致的多种转录组变化梯度（Chen et al, Circulation, 2022）。这些观察和分析让我们认识到，细胞图谱的组装，不是对各器官采集足够单细胞数据后按解剖学部位堆积起来就能完成的，而需要全新的技术路线和框架。目前国际上存在的较大规模细胞图谱或单细胞数据库，实际上实现的都是“文件级”细胞图谱组装，而完整的细胞图谱需要以细胞为中心的“细胞级”组装。

发表在《国家科学评论》上的观点文章那么，什么是“细胞级组装”呢？简单说，就是将人体的各种细胞有组织地放到一个巨大的数据集合体中，利用集合体展现由细胞组成的组织、器官、系统和人体的全部关系和规律。当这个集合体包含的细胞数目和每个细胞的信息量足够完整时，这个细胞数据集合体就是一个数字化细胞构成的虚拟人体。在这个虚拟人体上展现各种生命现象，就是我们说的“数基生命系统”，它是碳基细胞组成的人体在数字和数学空间中的镜像。落实到当前现实的单细胞数据上，细胞级组装就是对不同来源的人体单细胞数据经过统一质控和预处理后，按统一信息框架集成到同一个数据集合体中，保存关于每个细胞的所有信息，包括基因表达信息、样本的解剖学信息、空间信息，也包括细胞类型注释信息、算法产生的表示空间向量信息，还包括样本捐赠者的各种元数据和数据采集中的各种技术信息。这个统一信息框架需支持对所有细胞按照可能用于索引的信息去检索，从而支持按照各种可能的整体或局部坐标体系进行展示和分析。在这样的框架下组装起来的图谱，并没有解决或尝试解决唯一的坐标体系问题，而是提供了适应人体内在多层次多尺度多维度索引体系的通用解决方案。

我们在《国家科学评论》的观点文章里阐述了对人体细胞图谱统一信息框架的需求分析，iScience上刚刚发表的工作就是我们对这一理论的具体实现。我们基于这个信息框架对来自一百多个数据集的100多万个健康单细胞数据样本进行了收集和组装，形成了覆盖人体38个器官的集成细胞图谱，命名为hECA（human Ensemble Cell Atlas）。与同时发表的HCA细胞图谱相比，hECA是第一个真正实现细胞级组装的人体细胞图谱，包含了理想的细胞图谱信息框架应该具备的基本要素，并在之上开发了“数基细胞实验”等细胞图谱应用新范式，展示了未来完整的人体细胞图谱的雏形。

hECA的主要特征和功能

测序中国：细胞级组装的集成细胞图谱，对于人们探索生命机理有什么意义？hECA可为生命科学和医学研究提供哪些主要功能？对人民生命健康事业能发挥怎样的作用？

张学工教授：

当前hECA 1.0版本包含的数据虽然有限，但已经能展示出集成细胞图谱所提供的巨大潜力和崭新应用场景。

hECA提供对器官、细胞、基因的全方位多视角“肖像”。此前，我们对器官、细胞、基因的认识都是基于不同层面：对器官的认识主要是解剖学层面和生理功能层面，对细胞的认识主要是细胞生物学层面，对基因的认识主要是分子生物学层面，这些认识就像是对这些生物学实体在特定视角下的“快照”，无法全面反映它们在生命剧本中所扮演的角色。hECA对这些实体提供了全方位多视角的定量刻画：对于一个器官，用户可以浏览器官及其各部位的定量细胞类型构成、基因表达分布；对于一个细胞类型，可以浏览细胞在各种器官中所占比例、所有基因在这个细胞类型中的表达量分布；对于一个基因，可以浏览其在各种器官和各细胞类型中的相对表达丰度分布。随着集成细胞图谱中包含的细胞数目和每个细胞数据种类的不断增加，这种对生物学实体的“肖像式”全息刻画将日益完善，进一步结合包括细胞通讯、基因相互作用等实体间关系信息，改变当前主要用标记基因、上调下调等手段来粗略刻画生物实体特性的现状，“栩栩如生”地还原生物实体作为复杂系统构成元件的全方位性质。

hECA提供用户可快速定制的细胞参照系。在单细胞研究中，以细胞图谱作为参照系对用户自有的数据进行标注是目前最常见的图谱应用场景。为此，计算生物学家发展了多种利用参照细胞集合为新细胞进行标注的算法，包括多种机器学习方法。这些算法通常是基于作者预先收集的大量单细胞数据开发的，随着越来越多实验室对各种生物学和医学问题开展单细胞研究，经常需要根据研究对象定制特殊的细胞参照系。在hECA中，由于采用细胞级组装，用户可以按照任意条件或多种条件组合从图谱中筛选所需的细胞，快速构建定制的细胞参照系。比如可以通过hECA网页交互或两行ECAUGT代码从全身各器官筛选出满足某种基因表达条件的所有T细胞，在几秒内即可构建出自己定制的T细胞子图谱，而且可以多次通过修改代码调试用不同条件筛选构建的参照系。

通过数基细胞筛选快速构建定制细胞参照系

我们把这种在细胞图谱中用代码筛选符合条件细胞的操作称作“数基细胞筛选”（“in data” cell sorting）。正如人们通过细胞筛选实验从组织样本中分离所需的细胞一样，数基筛选是从hECA这个虚拟人体中分离所需细胞，这正是细胞级组装带来的革命。传统用于细胞筛选实验的标志物往往局限于有限的表面蛋白，数基细胞筛选则不受此限制，可以用细胞中包含的任意信息组合进行筛选。hECA内部支撑这一功能的系统叫做ECAUGT（读作e-caught，意指“电子捕获”），让用户把传统的细胞实验变成编写易读的代码。

hECA提供数基虚拟药物试验。作为数基细胞筛选的高级应用，用户可以直接在细胞图谱上研究传统实验难以研究的问题。比如CAR-T治疗是一种人们非常看好的肿瘤靶向治疗方案，但它可能带来的副作用却不易评估，因为可能的副作用是全身性的，在无法猜测副作用会出现在什么器官中的情况下无法通过体外实验进行研究。有科学家通过手工收集大量文献中的数据，逐一研究特定CAR-T治疗除了作用于癌细胞之外还可能作用到什么器官的什么细胞，但这种研究模式效率低、工作量大，而且需要对治疗的脱靶目标有很好的预先猜测。hECA提供了通过数基细胞实验方式研究这一问题的有效解决方案：用户只需要根据CAR-T作用的靶基因设计筛选条件，就可以快速把人体各器官可能受到CAR-T作用的细胞都筛选出来，进而分析它们都是什么细胞类型、来自哪些器官，并评估药物对这些器官可能的副作用。我们在iScience发表的文章中介绍了两个这样的实验实例。随着hECA包含的细胞数目和信息类型不断增加，这种数基细胞实验将成为未来药物研究的重要手段，开创“数基药物试验”的新时代。

利用hECA开展数基药物试验

测序中国：作为首个真正的集成细胞图谱，hECA建设中一定面临着很多技术挑战，您的团队为攻克这些挑战主要发展了哪些核心技术？

张学工教授：实现细胞级图谱组装并非易事，我们经过几年攻关才找到比较系统的解决方案，其中包括我们研发的三项核心技术：超级大数据系统uGT、统一标注知识图体系uHAF和细胞检索引擎ECAUGT。

首先是数据存储系统的挑战。虽然大数据技术已经发展了很多年，但大部分商用数据库系统能支持的是数据实例多、每个实例所含属性较少的情况。在细胞图谱中，每个单细胞就记录数万个基因的表达值，同时还要记录更多其他信息。要实现“细胞级”组装，需要能支持超宽超深列表的数据库，现有一般数据库系统无法支撑，但高端大数据系统的成本学术界无法负担。这也是其他细胞图谱采用文件级存储和管理的原因：用文件方式存储一个个数据集，只用数据库来存储关于这些文件的信息。比如，HCA官方的数据集成平台当前包含了超过35万个单细胞数据文件。为解决这一挑战，江瑞教授研发了一套可以在个人电脑和服务器上支持超宽超深数据存储、管理和索引的数据库系统，在hECA中称作uGT，意思是“统一超大表格”。uGT能支持超过10亿个细胞、每个细胞有上百万个数据项的细胞图谱，且对这样大规模数据的检索只需要秒级的时间。这是hECA能实现细胞级组装的核心软硬件基础。

另一个挑战是细胞的注释体系。此前国际上还没有一个统一的单细胞类型标注体系，不同单细胞研究采用不同的细胞标注，甚至有的研究中同一实验室对同一批数据进行的标注也不完全一致。这是组装细胞图谱必须解决的问题。我们分析现有关于细胞类型划分和标注的知识，提出了一套统一的层次化标注框架uHAF，把解剖学标注与细胞类型标注统一为一个多层次、可扩展的知识图。uHAF借鉴已有的解剖学知识体系和细胞分类体系，整合目前收集的数据集中用到的解剖学关系和细胞类型，对不同文献采用的标注进行统一。更重要的，uHAF定义了可扩展的表示结构，兼容未来知识体系的不断丰富和完善，并将在下一版本中设计由科学家共同体合作修正和扩展知识图的功能，与HCA等计划的标准体系形成对接，把uHAF打造成细胞图谱组装标注的国际标准。

hECA系统背后的第三项关键技术就是基于uGT和uHAF实现的细胞灵活检索软件引擎。这个引擎以ECAUGT作为应用编程界面API向用户提供，同时也支撑了hECA网页的图形用户界面。

除此之外，我们在底层的数据收集、质控、预处理、归一化等方面以及图谱展示的图形用户界面方面都投入了大量工作，确保数据质量和可用性、易用性，这些是整个集成细胞图谱建设的基础。

测序中国：5月12日，Science期刊发表了四篇人类单细胞图谱文章，能否介绍一下hECA研究与这些工作之间的联系和区别？hECA对国际细胞图谱建设的发展将发挥什么作用？

张学工教授

HCA是美国和英国学者牵头2016年发起的一个国际科学家合作组，2017年在多个基金会的资助下启动。HCA并不是国际上唯一的以构建人体细胞图谱为目标的研究计划，稍后又出现了由政府资助或民间资本资助的其他类似计划，如Tabula Sapiens合作组。本期发表的四篇图谱文章就是来自HCA合作组和Tabula Sapiens合作组。正如张泽民老师在本期Science上发表的评述文章指出的，这些工作的意义是跨人体组织细胞类型间的映射：通过这种映射，揭示了组织间保守的细胞特征和组织特异性的细胞状态，识别了更多稀有细胞类型，同时揭示了若干疾病相关的细胞类型（Liu & Zhang, Science, 2022）。这是人类细胞图谱计划发展的一个重要里程碑。但这些图谱在数据组织和呈现方式上，仍然沿袭了以往图谱工作的框架，为进行细胞级完整人体图谱的组装。hECA集成细胞图谱是我们近几年来对细胞图谱组装方式深入研究后提出的解决方案，是独立于任何计划之外、基于民间公开数据构建人体细胞图谱的方案。hECA对数据来源保持开放态度，只要是公开发表的单细胞数据集都可以用hECA的信息框架进行组装。我们看到，单细胞技术的快速发展和商业化推广，产出了大量人体各器官的单细胞转录组数据，这些散布数据总规模已超过几个主要国际计划数据，但缺乏有效组织。与此同时，各国科学家也在加紧升级已有的细胞图谱，在单细胞组学数据的基础上，利用空间成像等技术获取如细胞形态和微环境等更多“细胞级”的元数据（metadata），以更好地理解细胞功能。根据这一发展趋势，我们利用散布在文献和其他数据库中的公开单细胞数据构建完整细胞图谱，提出了图谱组装统一信息框架的思想和细胞中心化（cell-centric）的解决方案，并构建了第一个细胞级组装的集成细胞图谱hECA。这是我们为人体细胞图谱建设提出的自主解决方案，同时我们也与国际同行保持着密切沟通，希望我们这一解决方案在未来能为其他图谱建设计划提供参考或借鉴。

测序中国：hECA目前发布的是1.0版，是否可以介绍一下它未来的发展规划？

张学工教授：

我们认为，最终的人体细胞图谱应该是由数字化细胞组成的虚拟人体，是能在细胞和分子层面上完整展示生命机理的“数基生命系统”，是人体在数字化、数学化空间中的孪生。这是一个很长远的目标，hECA只是朝这个目标试探迈出的一小步，我们已经找到这个有效的切入方向，会沿着这条道路不断向前。从近期的目标来说，1.0版本的hECA还是一个初级的集成图谱，主要体现在细胞数量尚很小、器官覆盖度不高，而且其中收集的部分数据是由比较早期的单细胞技术产生，信息密度有待提高。下一步我们首先要大规模增加最新技术产生的数据，增加对各种器官的覆盖度。同时，我们将在图谱中增加其他类型的单细胞数据，比如刻画染色质开放性的单细胞ATAC测序数据等，发展引入新组学数据后图谱组装的统一信息框架。此外，我们也会不断采纳和发展最先进的单细胞数据处理方法，持续提高图谱数据的质量。我们正着手构建有序开放的数据和知识社区，组织高内涵高通量的细胞数据，产生大规模、高质量的数据标注，发挥群体智慧共同构建理想的集成细胞图谱。在不断完善集成细胞图谱的基础上，我们正在研究数基细胞高通量虚拟筛选、虚拟扰动、虚拟药靶发现方法，在数基孪生的细胞、组织、器官和系统里开展药物设计、评估治疗效果。我们将积极与医学研究机构合作，探索集成细胞图谱更好服务基础和临床医学研究的新方法、新范式，帮助医学研究者通过hECA更有效发掘单细胞技术和国内外海量数据中的宝藏，让首个细胞级组装的集成细胞图谱更好地为人民生命健康做贡献。

hECA研究团队的部分成员

人物

首个细胞级组装的人体集成细胞图谱hECA发布！深度对话张学工教授：探索细胞图谱应用新范式

相关文章

“基因魔剪”首批临床试验将展开，拟定明年在欧美进行

16年！血液检测预测阿尔茨海默症时间又提前，还能监测疾病进展

登顶Cell！北京林业大学联合安诺优达完成染色体水平的油松基因组组装和甲基化研究

热评文章

最赞的文章