科研

首页 - 全部文章 - 科研 - 三代测序数据组装算法——wtdbg2,速度大幅提升 | Nature Methods

三代测序数据组装算法——wtdbg2,速度大幅提升 | Nature Methods

近日,中国农业科学院农业基因组研究所阮珏博士与美国Dana-Farber癌症研究所李恒博士合作开发了三代测序数据组装算法——wtdbg2,其速度是已发布工具的2~17倍,并实现了相当的连续性和准确性,为未来的人群规模长读长测序数据组装铺平了道路。该研究在Nature Methods杂志上以简讯形式发表文章“Fast and accurate long-read assembly with wtdbg2”。

De novo 序列组装是根据相对较短的reads中重建样本基因组,对研究新物种和基因组结构变化至关重要。但由于参考基因组可能缺少目标序列,基因组结构变化常常无法进行基因映射分析。随着Oxford Nanopore Technologies、PacificBiosciences等三代测序公司对单分子测序技术的大力开发,科学家能够以低成本对10~100kb的序列进行测序。该长度的reads可帮助解析灵长类动物中的主要重复序列,并有助于提高组装基因组的连续性。

目前,科学家已经开发出几个高质量的长读长测序组装算法,这些算法已成为细菌和小型基因组组装的常用算法。但对于哺乳动物基因组来说,使用现有的组装算法可能需要大量的计算资源。商业云服务的计算成本与一台PromethION测序仪的测序成本相媲美,该仪器可在两天内以30×的覆盖率对人类基因组进行测序。

为节省计算资源,降低成本,阮珏博士和李恒博士联合开发了wtdbg2这是一种新的长读长测序组装算法,在大型基因组组装中,该算法速度提升了几倍,同时对组装质量的影响很小。

图1. wtdbg2算法的概述。Wtdbg2将256bp分组到一个bin中。来源:Nature Methods

Wtdbg2遵循overlap-layout-consensus模式。该算法基于基于模糊布鲁因图(FBG)理论开发,通过快速全面比对序列数据提高了组装效率。研究人员在四个数据集上评估了wtdbg2以及CANU、FALCON、Flye、MECAT-180314和Ra算法。结果显示,wtdbg2速度至少是其他算法的2~17倍,其组装连续性和精度可与其他算法相媲美。

图2. wtdbg2在人类基因数据集中的组装表现。来源:Nature Methods

研究人员利用wtdbg2组装了四个附加的人类基因数据集(图2)。数据显示,在一台计算机上,wtdbg2可在2天内完成4个基因数据集的组装,其性能与PromethION机器的测序通量大致匹配。相比之下,Flye和CANU分别需要约5,000和40,000个CPU小时来组装。此外,wtdbg2使用235Gb内存,仅为Flye使用内存的一半。相对较低的内存占用,有助于wtdbg2扩展到巨大的非人类基因组。在2天内,wtdbg2算法可以 1.2TB 内存组装32Gb 的蝾螈基因组,NG50为392kb,大于已发布的序列长度。

据悉,该研究开始于2013年,自2016年起,wtdbg2可免费开放使用https://github.com/ruanjue/wtdbg2。wtdbg已被数十篇论文引用,并被多家基因测序公司使用。2019年1月26日,该研究首先发表在了bioRxiv上。

十年前,当短读长测序技术进入市场时,庞大的数据快速淘汰了之前开发的组装算法。随着测序市场的发展,面对人群规模的测序需求,长读长测序技术应运而生。但现有的长读长测序数据组装算法需要耗费数千个CPU小时才能组装人类基因组,在通量和成本方面都没有测序技术发展迅速。阮珏博士和李恒博士联合开发的长读长测序数据组装算法wtdbg2,不仅组装速度大幅提高,并实现了相当的连续性和准确性,为未来的人群规模长读长测序数据组装铺平了道路,为从根本上改变当前序列数据分析的实践提供了更多选择。

参考资料:

Fast and accurate long-read assembly withwtdbg2

https://doi.org/10.1038/s41592-019-0669-3

(1)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章