科研

首页 - 全部文章 - 科研 - Nature子刊丨中科院遗传发育所梁承志组发表单分子测序高质量组装软件HERA

Nature子刊丨中科院遗传发育所梁承志组发表单分子测序高质量组装软件HERA

高质量基因组序列对于研究一个物种基因组的结构、功能、进化、基因定位和克隆等具有至关重要的意义。目前,单分子测序技术的发展已使得构建高质量基因组草图的难度日趋降低。然而,现有草图序列仍然可能存在着由于组装序列碎片化而导致的多种错误,例如基因序列不完整、排列到染色体上后的片段遗漏、排列顺序错误和方向错误等,为后续研究带来了不便。另一方面,目前的基因组组装算法仍存在较多瓶颈,使得单分子测序技术的优势不能完全发挥。

为了解决单分子测序数据处理算法和软件工具不够丰富及成熟的问题,近日,中国科学院遗传与发育生物学研究所梁承志研究组开发的高质量基因组组装软件HERA在《自然-通讯》(Nature Communications)在线发表。测试发现,在现有软件组装的基础上,该软件能够大大改进基因组序列的连续性并减少组装错误,提高基因组组装效率。相关论文题目为“Assembly of chromosome-scale contigs by efficiently resolving repetitive sequences with long reads”。

近年来,梁承志团队多年来通过结合单分子测序和光学图谱及HiC等技术构建高质量基因组,已完成多个植物基因组的组装。该团队在前期工作的基础上开发了一个利用单分子测序长片段进行基因组复杂区域组装的新方法HERA。通过对水稻基因组进行测试发现,HERA将水稻中的绝大部分重复序列包括复杂的长串联重复序列都正确地组装了出来。在玉米、苦荞和人基因组中与已发表版本进行对比,玉米的Contig N50从1.3 Mb提升至61.2Mb,人的Contig N50从8.3 MB提升至54.4 MB,苦荞基因组Contig N50达到了27.85 Mb在玉米B73参考基因组中填补了大量以前没有组装出的序列,校正了多处染色体上序列位置或方向错误,并增加了一些以前丢失的多个重要基因。苦荞中全基因组8条染色体共只由20个Contig组成,其中一条染色体是一个Contig,展示了利用现有常规技术条件构建几乎完整的基因组的潜力。此外,HERA与已有基因组组装软件CANU等能够形成良好互补,预期二者的整合将会产生新的软件,大大提高基因组组装的效率。

图a: HERA组装基因组跟玉米参考基因组B73 RefGen_v4的比较。全基因组中序列缺口由2523个减少到了76个。图b: 玉米参考基因组中缺失或多余的序列(上图)经HERA改进后(下图)被正确地填补或移除。

目前,随着单分子测序价格的下降,结合单分子测序、BioNano和Hi-C数据,研究人员已能够以很低的成本得到绝大多数物种的高质量参考基因组。对于功能基因组研究来说,高质量基因组序列的获取将不再是一个瓶颈,这也预示着后基因组时代在多数物种中的全面到来。相信在未来,包括HERA在内的高质量基因组组装软件将进一步助力基因组草图的构建,帮助研究人员进一步了解人类和其他生物,加强人类对周围一切的认知,从而更好地处理人和自然和谐发展的命题。

据悉,该论文第一作者为梁承志研究组博士生杜会龙,通讯作者为梁承志研究员。软件开发得到基因组分析平台的大力支持和帮助。该研究得到中科院战略性先导科技专项(A)“分子模块设计育种创新体系”等的资助。

(0)

本文由 测序中国 作者:白云 发表,转载请注明来源!

热评文章