产业

首页 - 全部文章 - 产业 - “测序平台+AI算法”成为前沿研究首选,Google Research发布三大测序平台对比报告

“测序平台+AI算法”成为前沿研究首选,Google Research发布三大测序平台对比报告

近年来,基因组学领域在测序技术、数据分析方法学两个维度持续迭代。在刚刚落幕的2025年美国人类遗传学学会(ASHG)会议上,Google Research首次公布了一项横跨三大测序平台、与基于机器学习方法学的分析软件结合使用的对比研究,华大智造(MGI)DNBSEQ-T1+在SNP、Indel检测精度、错检位点总数、Homopolymer区域表现等多维度指标超越海外平台,这预示着国产测序平台在前沿方法学应用中正占据越来越重要的前瞻性地位。

基于机器学习的分析软件成为前沿研究首选:

对测序平台的数据质量提出更高要求

在精准医疗的时代浪潮中,基因测序技术的精度与可靠性,是一切科研发现与临床应用的基石。如何评价一台测序仪的测序质量、一套分析流程精度的优劣,一直是基因组学行业规范化工作的核心议题。随着GIAB(Genome in a Bottle)国际商业标准品HG001-HG007的成熟,样本来源实现统一;GA4GH(Global Alliance for Genomics and Health)组织规范了变异检测结果的评估方法,规范了评估路径。再加上PrecisionFDA Truth Challenge V1、V2两次社区竞赛的推动,行业逐步建立起一套以“商业标准品测序—数据分析—基于已知变异参考集进行精度评估”为框架的通用评价体系。依托该流程,测序仪厂商与分析软件服务商不断优化测序数据质量和分析算法,推动检测结果向临床级别精度迈进。

Truth Challenge竞赛中,以DRAGEN、Google DeepVariant、Sentieon为代表的基于机器学习的分析软件在整体检测精度及复杂区域检测精度上,全面超越传统方法,成为前沿研究的首选。然而,机器学习模型需要依赖高质量训练数据以获取高质量模型,这对于生成训练数据的测序平台提出了更高的要求。

近期发布的HG002 Q100高质量参考基因组,进一步扩充和完善了评估用的变异参考集,极大地填补了以往未覆盖的基因组区域,再次激发了行业对检测精度新一轮的竞争。2024年,DRAGEN结合Novaseq平台的测序数据在HG001–HG007标准品上展现出高精度;2025年,Google基于Element平台的测序数据训练模型,精度进一步超越Novaseq+DRAGEN组合。在2025年ASHG大会上,Google最新研究显示,基于DNBSEQ-T1+平台训练的模型,变异检测精度进一步超越Novaseq和Element平台。这项研究结果不仅为AI模型训练的数据集选择提供了重要参考,更标志着国产测序仪厂商不仅加入了这场前沿竞争,并且凭借其卓越的测序质量获得了关键优势,处于行业领先地位。

这项由第三方权威团队发布的评估,无疑为华大智造的测序质量提供了极具分量的背书。但它也留下了一个亟待解答的问题:T1+平台究竟是依靠什么,能够在如此严苛的对比中胜出?

三大测序平台对决:

DNBSEQ-T1+在核心指标上全面领先

华大智造的DNBSEQ-T1+自发布以来就在全球市场引起了客户的广泛关注,凭借DNB核心原理与仪器集成化设计的双重创新,成为全球首款可在24小时内产出Tb级别数据的桌面式测序仪,以 “更快速、更灵活、更易用” 的特性推动行业进入 “文库上机、数据当日达” 的高效时代。

2025年ASHG会议上,Google Research技术工程师分享了针对华大智造/Complete Genomics(Complete Genomics为华大智造美国子公司)DNBSEQ-T1+测序平台的专项研究成果,从客观数据层面印证了 T1+的性能优势 —— 通过对比DNBSEQ-T1+、Illumina NovaSeq、Element AVITI 三大平台的HG002标准人类基因组数据,结合常规及专项训练的DeepVariant模型,从SNP、Indel的检测准确性、错检位点数量等维度展开评估,结果显示 T1+全面领先。

SNP检测: 稳扎稳打,精度再上一阶

SNP作为最常见的基因变异类型,是疾病关联分析的重要靶点。如图1所示,四种分析方案(Illumina NovaSeq +DV常规模型、Element AVITI +DV常规模型、T1+(Complete) +DV常规模型、T1+(Complete)+ DV T1+专项训练模型)的SNP Recall上均接近0.9975,说明T1+与其他平台在 “不漏检真实SNP位点” 上表现一致,基础检测覆盖能力达标。但在精确率上,差距瞬间显现,前三种方案SNP Precision均维持在0.9935左右;而T1+搭配 “专项训练的DeepVariant模型” 后,精确率提升至0.9945,假阳性位点减少,检测可靠性显著优化。尽管SNP Recall相当,但SNP Precision的提升直接降低了假阳性结果,使得T1+专项模型的SNP F1分数从约0.9955升至0.9965,成为综合最优解。

因此,T1+平台在SNP检测中展现 “SNP Recall稳定、SNP Precision可优化” 的特点,专项模型训练进一步提升综合性能。

1SNP Accuracy All Regions

Indel检测:召回与精确双维度领先

Indel变异占比虽低于SNP,却在癌症诊断、遗传病筛查中具有重要的临床意义。由于Indel长度可变、易发生相位偏移,其检测难度远高于SNP,这也是T1+拉开差距的关键领域。如图2所示,Indel Recall方面,T1+常规模型方案的Indel Recall显著高于 Illumina与Element平台,搭配专项训练模型后,Indel Recall进一步提升,意味着 “漏检真实Indel位点” 的概率更低,对插入/缺失变异的捕捉能力更强。Indel Precision方面,T1+两种方案的Indel Precision均优于其他平台,且专项模型方案Indel Precision更高,说明其Indel检测的误报率更低,结果可信度更高。受益于Indel Recall与Indel Precision的双重优势,T1+专项模型方案的Indel F1值大幅领先,成为三种平台中 Indel检测性能最优的方案。

因此,T1+平台在Indel检测的Recall、Precision与综合性能Indel F1上均表现突出,专项模型训练进一步拉大优势。

2Indel Accuracy All Regions

错检位点:全区域可靠性拉满

在统计不同平台的变异检测错检位点总数的分析中,图3可以发现:

1.假阳性位点:T1+两种方案的SNP假阳性、Indel假阳性数量均低于其他平台,尤其是专项模型方案,假阳性位点进一步减少,说明其对 “非真实变异位点” 的误判率更低。

2.假阴性位点:T1+方案的SNP假阴性、Indel假阴性数量与其他平台持平或更少,结合前文召回率数据,印证其 “覆盖真实变异” 的能力稳定且优秀。

3.错检总量:T1+专项模型方案的错检位点总数为四种方案中最少,全区域检测可靠性领先。

结论:T1+平台在全基因组区域的错检位点总数(含SNP假阳性、SNP假阴性、Indel假阳性、Indel假阴性)显著少于Illumina与Element平台。

3Total Errors All Regions

难点区域:攻克Homopolymer痛点

Homopolymer区域因连续重复的碱基序列(如 AAAAA、TTTTT),极易导致测序仪 "计数错误",成为海外平台的共性短板。但T1+在此区域的表现相当出色如图4所示Illumina方案在Homopolymer区域的SNP假阳性、Indel假阳性/假阴性位点数量显著高于T1+;而T1+两种方案的错检位点几乎接近0,尤其专项模型方案,Homopolymer区域检测准确性远超同类平台。Homopolymer区域的高准确性可减少因测序错误导致的变异误判,对癌症基因组、复杂疾病相关基因的精细分析具有重要价值。

因此,相较于 Illumina NovaSeq,T1+在Homopolymer区域的错检位点数量低,解决了同类平台的性能痛点。

4:Errors-Homopolymer regions

案例见证:

从“统计领先”到“实战胜利”

数据的背后,是真实的科研与临床价值。Google Research展示了包括Insertion、 Deletion等多个“实战”案例,结果表明T1+能够检测出Illumina NovaSeq无法识别的变异位点,包括4bp插入、7bp插入等Homopolymer区域的关键变异,进一步印证其检测覆盖的全面性。

如图5所示chr1染色体38,861,656-38,861,711区域,T1+成功检出Illumina NovaSeq遗漏的 “杂合4bp插入、7bp插入” 变异,且该变异位于Homopolymer区域,再次体现 T1+在难检区域的检测优势。

5:Insertion案例

如图6所示T1+可捕捉NovaSeq未检出的缺失变异,说明其对 “低频率、复杂区域变异” 的检出能力更强,能提供更完整的基因组变异图谱。

6:Deletion案例

这些案例证明T1+的领先不是冷冰冰的统计数字,而是切实转化为对更多真实生物学信号的捕捉能力,这对于旨在发现新变异、探索复杂疾病机制的前沿研究而言,价值不可估量。

技术根源剖析:

DNBSEQ技术如何支撑测序质量跃升

华大智造DNBSEQ-T1+的性能表现,根植于其核心技理——DNB技术与主流桥式扩增的根本差异。Illumina采用的桥式扩增通过引物与芯片表面寡核苷酸结合,使 DNA片段进行指数级扩增。这种模式下,单条模板的初始复制错误会随循环次数呈指数级累积,最终导致假阳性变异率升高。而DNB技术通过滚环扩增实现线性复制,先将双链DNA环化为单链环状模板,再以其为基础合成串联重复的线性单链,所有拷贝均源自原始模板的直接复制,从根本上避免了 “错误放大效应”。

这次Google Research对HG002标准基因组的检测数据分析,再次证实了DNBSEQ测序技术 “高准确性、低错检率、强难点突破” 的核心优势——SNP与Indel检测的综合性能(F1 值)领先,全区域错检位点最少,尤其在Homopolymer区域的准确性远超Illumina NovaSeq,还能捕捉同类平台遗漏的关键变异位点。

这是对DNB技术理论优势的又一次有力实证:华大智造并非“技术追随者”,而是从物理和化学的底层原理上,选择了一条更能保障数据准确性与纯净度的技术路径。

前沿方法学与高端平台共演进:

华大智造的前瞻性布局

Google Research此次研究不仅是对T1+单个平台性能的背书,更揭示出一个重要趋势:测序平台与AI方法学正在进入协同演进的“双螺旋”发展模式。在Truth Challenge竞赛中,当整个行业意识到AI方法学将成为未来时,华大智造已经洞察到:未来的竞争,将是“高端平台”与“顶级算法”协同进化的竞争。华大智造主动与Google Research这样的AI巨头合作,为其DNBSEQ-T1+平台开发专项训练的DeepVariant模型,这一举动本身就极具战略意义。

这份报告的结果,也验证了“平台+定制模型” 这一新模式的价值。华大智造再次树立了行业标杆:国产测序仪厂商不仅有能力产出世界一流的硬件,更有胸怀和智慧去整合世界一流的软件算法,最终为全球用户提供最优的工具方案。

过去,全球科技领域的标准与标杆,大多由少数几家国外厂商定义。今天,在基因测序领域,华大智造DNBSEQ-T1+通过与Google DeepVariant的深度耦合证实T1+的高准确性与全面检出能力可满足基础基因组研究、临床诊断(如癌症早筛、遗传病检测)、复杂疾病机制分析等场景的需求,为生命科学研究与精准医疗提供更可靠的测序工具支持。

这不仅是两个技术标杆的强强联合,更是测序产业迈向“AI驱动、平台优化、标准统一”新阶段的标志性事件。它证明了中国测序平台在技术原创性、数据质量与方法学兼容性上均已达到全球领先水平——在精准医疗日益依赖基因组数据的今天,华大智造无疑为中国科研与临床工作提供了更可靠、更先进的底层工具选择。

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章