其它

首页 - 全部文章 - 其它 - 专访裕策生物孔德举:生命的底层逻辑是数据处理,精准免疫治疗离不开大数据

专访裕策生物孔德举:生命的底层逻辑是数据处理,精准免疫治疗离不开大数据

近年来肿瘤的免疫治疗和药物研究有了突破性进展,与此同时,对于肿瘤免疫机制理解的不足,也导致了部分免疫治疗药物临床试验的失败。肿瘤免疫基因大数据挖掘作为解决该问题的突破口之一,已成为肿瘤免疫领域的重要热点,基于基因大数据的精准医疗时代已然来临。

作为国内首家以肿瘤精准免疫诊疗为核心的基因检测和大数据分析公司,裕策生物如何通过大数据技术挖掘及分析肿瘤临床数据,为临床决策、药物研发提供精准指导?在搭建大数据平台方面取得了哪些阶段性成果?对肿瘤免疫诊疗领域的发展有怎样的积极意义?带着这些问题,测序中国采访了裕策生物副总裁、大数据&信息化中心负责人孔德举先生,深入了解裕策生物的技术开发及未来业务布局。

势在必行:基因大数据赋能临床肿瘤免疫诊疗

生命本身的复杂性是生命健康领域面临的最大挑战之一。随着测序技术的不断发展,我们认识到基因在生命活动中的重要作用,但我们对基因的解读,尤其是基因与临床关系的认知,还远远不够。同时,作为生命系统的关键子系统——免疫系统,也非常复杂,它依赖于众多不同类型的免疫细胞来发挥功能,充满了未知及不确定性。免疫系统在生命健康研究中有着举足轻重的地位,是复杂性科学的重要研究对象。孔德举先生谈到,就整体而言,当前人类对生命的底层认知还停留在碎片化状态,对生命程序的系统认知还远未建立,这是科学研究面临的长期性复杂难题。

那么如何解决这一系列的难题?孔德举先生认为大数据技术是解决这些难题的关键之一。从数据的角度来看,世界本质上由数据构成,生命也不例外,生命的底层逻辑就是数据处理,理论上,当我们掌握了足够多的数据,就可以为生命的一些关键过程进行数学建模。信息技术和测序技术的发展,让大数据技术在精准医疗领域成为可能。

免疫疗法是肿瘤治疗领域最具前景的发展方向,目前已有多种免疫疗法获批用于不同肿瘤的临床治疗,但只有少数肿瘤患者通过这些治疗得到了持久的免疫应答和生存获益。如何为肿瘤患者选择最合适的治疗方法成为免疫疗法普及临床应用的一大挑战。

针对肿瘤免疫治疗临床决策,孔德举先生强调,该领域面临的现实难题有很多:首先是免疫标志物繁多,包括肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)、肿瘤新生抗原负荷(TNB)、ITH、HLA LOH、PD-L1、CD8以及免疫疗效相关基因突变等。面对诸多标志物,以哪个为准?尤其是标志物间出现冲突的用药提示时,该如何决策?当涉及免疫联合治疗时,这些问题可能变得更加复杂。第二是标准问题。不同科研单位及企业对TMB在内的多个生物标志物的定义和计算逻辑不尽相同,这造成很多科研结论的可重复性问题,数据间的整合和比较分析也变得更加复杂。第三是解读问题。不同公司的数据解读逻辑不尽相同,甚至有医生将同一个患者的肿瘤样本送到不同公司进行检测,会获得完全不同的用药提示,这无疑对临床医生和患者造成了更多的困扰。

大数据技术可以产生新的科学研究方式,从“观察-假设-验证”单个地获取知识,到“记录-挖掘”批量地产生知识的转变。此外,基于大数据产出的知识也相对可靠,结论更容易实现重复。孔德举先生认为:“肿瘤免疫基因大数据平台的构建对于包括靶向治疗、免疫治疗在内的整个精准医疗领域有着非常重要的作用。最直接的应用就是基于基因大数据我们可以对个体进行更准确的量化,建立与治疗方案及疗效的关联,利用人工智能技术优化模型,达到专家诊断水平,以提升整体尤其是基层的医疗水平。此外,研究人员也可以利用这些数据挖掘潜在的治疗靶点。”裕策生物已经在该领域开展了几项相关研究,开发的多个模型也在数据集上得到了验证。

迎难而上:搭建肿瘤免疫基因大数据平台

“我们的创始人兼CEO高志博博士非常重视数据的积累,在平台建设方面也给予了非常多的资源及指导意见,团队在肿瘤免疫诊疗数据平台建设上进行了一系列尝试,包括免疫队列数据收集与治理、平台建设、数据挖掘等,并建成了国内最大的多维度免疫诊疗大数据平台(i-See大数据平台)”,孔德举先生表示。“当然,在平台建设时我们也遇到了一系列的挑战。”

裕策生物i-See大数据平台

首先是在数据获取上,裕策生物致力于打造一个大而全的免疫诊疗数据平台,数据形态涉及肿瘤基因组、转录组、肿瘤微环境及外周循环等不同维度信息,如何大量获取这些信息是很大的难题。为此,裕策生物搭建了多组学实验技术平台,包括基于DNB T7测序仪的高通量测序平台、基于GeoMX DSP的空间转录组平台、基于Vectra Polaris的多色免疫组化平台等。在数据来源上,除了依靠自身多年数据积累外,我们发起了“天梯计划”,联合临床医生多中心开展高质量的数据收集工作。此外,我们在公共数据挖掘上也投入了巨大的资源,整理已发表的免疫诊疗队列数据,整合到i-See大数据平台。

在数据治理上,面对多维度多层次的复杂数据,由于没有成熟的数据标准可以参考,如何有效地组织多种来源的数据成为一道门槛,为此裕策生物联合临床医生、数据技术公司建立了一套面向免疫诊疗数据治理的企业标准,即IGDS(Immunity Genomic Dataset Standard),从技术及实用性上规范各个维度的数据录入标准,极大提升数据质量

随着数据规模的不断增加,面对动辄几个PB生物信息数据,此时算力成为一大瓶颈。为此裕策生物与阿里云、亚马逊云合作开发了具有弹性算力支持的混合云分析平台YC-Cloud2,建设了高速网络专线,可以同时支持多个云平台。峰值计算时,YC-Cloud2平台可以完成每小时500T原始数据的计算能力。孔德举强调该技术对其他协议以及一些公司也具有重要借鉴意义。

基因大数据背后的数据隐私及安全尤为重要。据孔德举先生介绍,裕策生物极其注重数据安全工作,严格遵守法规要求,谨慎开展数据安全保护工作,按照ISO27001、GDPR等国际信息安全标准开展信息安全体系建设。例如:从技术角度,裕策生物通过冷热备份与异地备份、隐私计算、数据加密、防火墙保护、权限控制等技术手段保护底层数据安全;从管理角度,裕策生物建立了一整套数据管理制度,涉及员工、设备、程序等一系列管理措施,规范数据处理行为;在隐私保护方面,裕策生物所有数据的采集及使用,都征得用户的知情同意,同时对所有数据进行脱敏处理,从源头上保护用户隐私。

齐头并进:深入挖掘和解读基因数据

孔德举先生说道:“数据来之于临床,也要用之于临床。依托i-See数据平台,裕策开展了多项临床实践,目前已经开发了免疫诊疗综合评估模型(DeepIO)、肿瘤新生抗原预测算法(TruNeo)、智能变异判级程序(IVI)等多个免疫诊疗相关数据模型,在临床应用上都开始崭露头角。”

利用裕策多组学技术平台为个体免疫状态多维度综合评估  

DeepIO是裕策生物在大数据领域的第一个尝试,旨在解决临床端最迫切的问题,即如何为肿瘤患者选择最优的免疫治疗方案。为此,裕策生物利用人工智能技术,结合i-See的大量的多维度数据,开发了一款免疫诊疗综合评估模型(DeepIO)综合评估患者免疫特性,并推荐治疗方式,辅助医生进行治疗决策。“基于裕策生物数据库(包含公共数据),我们已初步对该模型进行训练与迭代,目前已经取得了很好的成果,其对应的数据比单个的标志物更全面,对个体的免疫状态评价也更准确。目前已经开始推进与临床医生的合作,期待更多的医生加入DeepIO的研发与验证队列收集中,”孔德举先生谈到。

新生抗原(Neoantigen)是连接肿瘤基因组和T细胞免疫反应的桥梁,是实现肿瘤精准免疫“诊”“疗”产品转化的关键。裕策生物通过模拟新生抗原在体内产生的生物学过程,依据大数据和深度学习模型,开发了高质量新生抗原筛选算法——TruNeo。它可以帮助找到具有免疫原性的高质量“真”新生抗原,其方法学文章于2020年11月发表在BMC Bioinformatics杂志上。TruNeo算法已经经过技术性能验证、临床性能验证,与TESLA(国际新生抗原筛查联盟)共建neoantigen预测国际标准的一期成果也成功于2020年10月发表在Cell上,共同揭示了个性化免疫疗法的关键。区别于其他肿瘤新生抗原预测算法,TruNeo完全是大数据的产物,是数据驱动的算法。TruNeo可以通过扩充训练数据的方式不断迭代自身算法。TruNeo算法中纳入了多种影响新生抗原生成和表达的影响因子,包括序列信息、HLA分型、亲和力、蛋白剪切等。孔德举先生提到,在最新的TruNeo算法版本中,裕策生物将纳入蛋白结构预测信息,期望进一步优化模型。

裕策的技术团队借助超级计算机和独有的中国肿瘤基因组数据库,使用TruNeo技术挖掘中国人群新生抗原高度相关的基因,开发出YuceOne®——全球首个以肿瘤新生抗原为核心的基因panel。孔德举先生介绍道,YuceOne® Panel包含757个高频产生新生抗原的基因,仅用全外显子组3%的大小来表征肿瘤免疫多个步骤的关键基因区域。结合临床检测数据和天梯计划多年积累数据,裕策生物已经拥有经过实验验证的新生抗原阴阳性数据库、共有新生抗原数据库,能够提高准确预测的肽段数量。同时,裕策生物围绕新生抗原检测及验证技术布局了一系列专利,包括“基于二代测序的新生抗原预测方法、装置和存储介质”、“一种新生抗原免疫原性的测试方法”、“同时检测新生抗原免疫原性和新生抗原特异性TCR的方法”等。

IVI(Intelligent Variants Interpreter in Oncology)是裕策生物在基因变异方向上的最新成果。孔德举先生指出,每个肿瘤基因组中可能存在数百至数千个体细胞突变,部分变异出现在生物学及临床相关、甚至是分子治疗潜在靶标的肿瘤基因中,但并非所有肿瘤相关基因发生的变异均为(潜在)功能性变异,更多的基因变异尚无明确的生物学或临床意义,确定通过NGS鉴定出的多个基因变异(genomic alterations,GA)的优先级排序是一项重大挑战。随着高通量测序分析进入临床领域,产生了大量数据,而如何及时、准确地将测序发现的肿瘤基因组变异信息转化为临床医生可读取并用于指导临床决策的结构化循证报告(structured evidence⁃based reports),正变得越来越重要。

医生在阅读一份NGS报告时应先了解其变异解读依据的证据分级原则及其采用知识库的局限性,以帮助自己更好地理解报告内容。基于人工的变异判读,除了具有效率偏低的缺陷,还对人员的经验具有很强的依赖。为此裕策生物整合了大量公共数据库,采用机器学习技术,开发了IVI变异智能自动判级程序。目前有多个循证分级系统可用于指导基因体细胞变异的临床解读。孔德举先生强调,裕策生物在开发IVI时借鉴了多个国际指南,包括美国分子病理学协会(AMP)/美国临床肿瘤学会(ASCO)/美国病理学家协会(CAP)联合制定的体细胞变异解读指南,欧洲肿瘤内科学会(ESMO)发布的分子靶点临床可操作性量表以及纪念斯隆⁃凯特琳癌症中心(MSKCC)的精准医疗肿瘤数据库(OncoKB)证据等级规则。IVI可以对基因变异进行全面评估,并做出高准确度的致病性判断,通过我们的不断努力,算法判级准确度目前达到了专家级判读水平,成果已在发表中。孔德举先生谈道,依托这些数据模型,裕策生物可以实现对检测数据的准确解读,让肿瘤治疗方案更精准有效,让患者获益。

最后,为进一步提升数据挖掘能力,裕策生物已与国内包括商汤科技在内的多家人工智能公司开展技术合作。 

结 语

采访中,孔德举先生表示,立足于让肿瘤免疫更有效,未来裕策生物将针对性地从数量与维度上进一步丰富以“免疫诊疗”为主题的数据库,使数据集更加全面和具有代表性。同时,利用大数据,裕策生物将继续打磨多款应用模型,通过迭代方式,进一步提升模型性能,并适时推出数据产品。在数据生态上,裕策生物致力于实现从数据采集、数据治理、数据挖掘到数据应用、数据共享等环节全部在线打通,直接服务医生与患者。在数据合作方面,积极推进与临床端、药企端的科研合作与验证工作,共享数据价值,共同推进肿瘤免疫诊疗走向数字化、精准化。

孔德举先生透露,裕策生物将在今年的CSCO会议上公布更多的大数据平台研究进展,届时欢迎行业同仁与临床专家参与讨论,合作共创。

(2)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章