破译4000年前古人基因组，华大智造MGISEQ-2000与Illumina X-Ten大比拼

白云资讯 2021-09-08

大规模平行测序（MPS）技术的出现促进了基因组学的快速发展，古基因组学也因此开始成为考古学、遗传学研究中的大热门，成为研究远古生物的新钥匙。每当发掘出远古时期的古人类和动物化石，古基因组测序都成为一些研究人员的重要备选研究方案。目前，基于不同策略开发的各种高通量测序平台已在古DNA样本分析中广泛应用。

2015年，华大集团推出了自研国产高通量测序平台——BGISEQ-500，其序列输出可与Illumina系列相媲美。此后，华大智造于2016成立，并陆续推出了多款平台，包括MGISEQ-200、MGISEQ-2000和DNBSEQ-T7。目前，华大智造MGISEQ-2000测序仪已广泛应用于各种组学研究，多篇报道证实了MGISEQ-2000平台的性能与Illumina系列相当，并且具有更灵活的读取长度选择、更高通量和更低成本。但关于MGISEQ-2000在古基因组学中的综合性能评估还未见报道。

近日，复旦大学文少卿团队联合厦门大学王传超团队首次评估了使用华大智造MGISEQ-2000测序平台进行古基因组学研究的潜力。研究团队使用了公元前1750年到公元60年左右的四个古代中国人骨骼样本，比较了华大智造MGISEQ-2000和Illumina X-Ten平台在古代人类DNA测序中的性能。数据显示，MGISEQ-2000和X-Ten平台在重复序列率、测序偏好性、θ、δS和λ等参数上只有细微差异。MGISEQ-2000在内源率（比对率，说明了保留人源DNA信息）和文库复杂度方面表现更优，而X-Ten则在错误率方面略好。其结论表明，MGISEQ-2000和X-Ten具有相当的性能，均可以作为古基因组学研究的潜在选择测序平台。该研究的相关成果发表在Frontiers in genetics上，文章题为“Comparative performance of the MGISEQ-2000 and Illumina X-Ten sequencing platforms for paleogenomics”。

文章发表在Frontiers in genetics上

1.测序数据质量——X-Ten质量略高，MGISEQ-2000有效数据略多

古基因组的重要特征在于，样本因为在自然条件下存在了太长时间，DNA已被环境严重污染和破坏。因此，如何在如此“残破”的样本中获得足够、高质量的数据，就是能获得更好结果的关键。

研究团队利用公元前1750年（样本F90914）到公元60年间（样本EA1102、EA1104、EA1107）的四个古代人类样本比较了 MGISEQ-2000和Illumina X-Ten在古人类基因组上的性能。经过提取基因组、文库构建和测序分析，并评估了测序数据质量分数，包括四个关键DNA损伤参数θ、δS、δD和λ。

碱基质量值是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。数据分析发现，MGISEQ-2000的Q20和Q30分别为97.73%和87.44%；X-Ten的Q20和Q30分别为99.29%和92.06%。从上述数据可以看出，两个平台的测序碱基质量相似均达到测序分析要求，其中X-Ten的碱基质量略高。在测序深度方面，同样的数据量下，由于比对到人基因组上的数据更多，使得MGISEQ-2000的测序深度更深。MGISEQ-2000平台对样本EA1102、EA1104、EA1107和F90914的测序深度分别为 0.046、0.040、0.016和0.087；X-Ten分别为0.043、0.035、0.016和0.078。

经过二次取样（保证两个平台用于分析的reads数目相当），结果显示两个平台之间的重复率和λ没有显著差异（表1）。两平台之间的独特内源率、θ、δS和δD观察到显著但轻微的差异，其中MGISEQ-2000内源率略高。决定古基因组测序成本最大的因素就是内源核DNA的含量，以及内源核DNA平均序列长度，这两个指标都是越高越好。

表1.研究主要参数统计。θ：DNA损伤后参考序列和样本之间的平均差异率。δS：单（Single）链损伤率，即单链胞嘧啶脱氢比率。δD：双（Double）链损伤率，即双链胞嘧啶脱氢比率。λ：终止悬垂的概率。来源：Frontiers in genetics

两相比较，在数据质量方面，两个平台各有千秋。

2.文库复杂度——MGISEQ-2000更优

文库复杂度被定义为在给定的一组测序reads中可以观察到的不同reads的数量。低复杂度的文库会导致很多测序reads来自相同的文库分子。当测序深度增加时，降低了有效数据增加，并增加更多的冗余数据或引入偏向性。因此，测序更倾向于追求复杂度更高的文库。该最新研究数据显示，两个样本EA1102和EA1107的文库复杂度在两个平台之间是一致的，对于另外两个样本EA1104和F90914，MGISEQ-2000提供了明显比X-Ten更复杂的文库（图1）。也就是说，如果继续增加数据量，这两个样本的MGISEQ-2000的数据结果很可能会更好。尤其要指出的是，复杂度差别最大的正是4个样本中最古老的，距今近4000年的样本。

此前的研究假设两个平台之间的复杂度差异是由扩增Illumina文库所用的大量PCR循环引起的。但研究团队发现并非如此，因为即使在两个平台上运行相同的循环进行PCR扩增，仍然发现存在结果差异。此外，研究发现MGISEQ-2000和X-Ten之间测序reads的长度分布存在差异，表明两个平台之间存在长度偏差，这可能有助于解释上述结果。

图1. MGISEQ-2000和X-Ten平台文库复杂度曲线。来源：Frontiers in genetics

3.基因组覆盖均一性——两平台高度一致

为进一步探索在参考基因组不同区域进行测序时是否存在偏好性，是否偏向于特定序列。研究团队运行了Jellyfish程序，以计算样本的6-mer频率（图2）。结果显示，所有样本对聚集在一起，表明MGISEQ-2000和X-Ten平台之间的6-mer频率一致。

图2. 6-mer分析的层次聚类热图。来源：Frontiers in genetics

随后，研究团队利用BEDtools比较了MGISEQ-2000和X-Ten平台在整个参考基因组中每100kb阅读框的测序深度和覆盖率。结果显示，在所有样本中，MGISEQ-2000与X-Ten平台的测序深度和覆盖率高度一致（图3）。来自两个平台的样本也与每个阅读框中参考基因组的GC含量有很高的相关性。以上结果表明，MGISEQ-2000和X-Ten平台之间在序列偏好性上没有显著的差异。

图3. MGISEQ-2000与X-Ten在100kb阅读框中测序覆盖率。来源：Frontiers in genetics

4.种群遗传分析——没有明显差异

古DNA被广泛应用于群体遗传学的研究中。为进一步分析群体遗传学中MGISEQ-2000与X-Ten平台获得的遗传信息是否一致，研究团队使用smartpca程序探索了总体群体结构。数据显示，MGISEQ-2000与X-Ten两个平台在相同样本数据通常紧密地投影在一起，但PCA图中的坐标并不完全相同（图4a），表明两个平台的测序数据之间存在差异，但差异不具有统计显著性（图4b）。

图4. 种群遗传结构概述。来源：Frontiers in genetics

该研究首次评估了使用MGISEQ-2000作为替代测序平台进行古基因组学研究的潜力。结果显示，对于古基因组学研究至关重要的关键参数，MGISEQ-2000与X-Ten平台测序数据没有显着差异或只有微小差异，且MGISEQ-2000在内源率和文库复杂度方面表现更好，表明MGISEQ-2000具有媲美Illumina系列平台的性能。基于此，研究团队认为，MGISEQ-2000可作为大多数古基因组学研究的潜在选择。

参考资料：

Kongyang Zhu, Panxin Du, Jianxue Xiong, et al. Comparative performance of the MGISEQ-2000 and Illumina X-Ten sequencing platforms for paleogenomics. Frontiers in genetics (2011).Front. Genet. doi: 10.3389/fgene.2021.745508

https://www.frontiersin.org/articles/10.3389/fgene.2021.745508/abstract

拓展阅读

玩转14000年前古基因组 | BGISEQ-500 WGS版盗墓笔记

本文由 SEQ.CN 作者：白云发表，转载请注明来源！

关键词：MGISEQ-2000, 华大智造

资讯

破译4000年前古人基因组，华大智造MGISEQ-2000与Illumina X-Ten大比拼

玩转14000年前古基因组 | BGISEQ-500 WGS版盗墓笔记

相关文章

真迈生物完成1.4亿元B轮融资，持续加速国产基因测序平台落地应用

专业剖析| 生命科学领域的新战争：数字化的“军事”竞赛

全球本地化稳步推进，诺禾致源小型柔性智能交付系统Falcon II入驻英国实验室

热评文章

最赞的文章