解读全外检测中的重复区域问题 | 基于四种WES商业化平台，评估“富集技术与DNA片段长度”对基因重复区域检测的影响

戴胜科研 2020-08-06

近年来，针对目标区域的靶向测序已成为临床诊断中广泛使用的方法。其中，全外显子测序（WES）为肿瘤、孟德尔遗传病等复杂疾病的研究和临床诊断提供了重要技术支撑。然而，由于基因组中存在大量的重复区域，基于目前的短读长测序方法存在多匹配问题，导致所检测到的变异位点准确性降低，同时也会导致与临床疾病相关的一些重要变异位点漏检。相比之下，长读长测序技术理论上可以解决重复区域问题，但是其测序的错误率相对较高。因此，采用适当的方法检测基因组中的这些重复区域，以寻找那些被“遗漏“的关键变异十分重要。

近期，意大利维罗纳大学Barbara Iadarola团队在Scientific Reports上发表了一篇题为“Shedding light on dark genes: enhanced targeted resequencing by optimizing the combination of enrichment technology and DNA fragment length”的文章。研究人员基于四种外显子富集商业化平台，通过优化富集技术和DNA片段长度的组合来提高基因组重复区域的比对质量[1]，可以更加深入地研究许多以前常被忽略的基因区域。结果显示，更长的DNA插入片段具有更高的基因分型能力，进而可以更加有效获取基因组重复区域中的信息。通过将覆盖深度与序列比对的置信度相结合，可将检出基因从数百种增加到数千种，包括与临床表型有关的若干基因。

来源：Scientific Reports

一般情况下，我们根据测序深度和覆盖均一性来评估WES的表现，但是为了检测那些比对质量较低但覆盖深度较高的区域中存在的变异，就需要利用序列比对质量和覆盖深度相结合计算得到的基因分型（genotypability）来作为来评估全外显子测序的表现[2]。事实上，人类基因组上有许多比对质量较低的区域，其通常是位于基因组上的重复区域。在进化过程中，许多基因都存在重复区域，如果这些重复区域大到致使测序read无法唯一比对，那么我们就很难确定read在基因组上的确切位置[3]。

通常，WES文库中的DNA插入片段大小为平均外显子长度，即170bp（人类基因组）[4]。目前测序多采用短的双末端序列，以避免配对序列的重叠。然而，当插入序列长度小于重复区域，会导致这些序列无法唯一比对，进而造成比对质量值较低。为了解决上述问题，该研究团队采用一种增加标准DNA片段大小的测序方法并结合富集技术，可使更长的DNA片段延伸到外显子区域之外，到达内含子，以优化基因组重复区域中DNA片段的定位。

研究内容

1.DNA片段大小对重复率和脱靶率影响

为分析DNA片段大小如何影响重复序列比例和脱靶率，研究团队评估了四种主流外显子富集平台（IDT、Roche、Agilent、Twist）在3种DNA片段长度下的表现（表1）。数据显示，对于DNA插入片段长度较短的文库（S）来说，其重复率（%Duplicate）较高（4种平台中，有三种平台显示出最高的重复率）。Twist平台在短片段（S）情况下均表现出较低的重复率。值得注意的是，Twist平台不受片段长度的影响，始终表现出最低的重复率（3.6% - 5.3%）。此外，Twist和IDT平台在不同片段长度下均保持脱靶率（%Off Target）不变，分别为~15%和~10.5%。

表1.不同插入片段长度在四种平台的评估结果。对于每种平台和DNA片段长度组合，目标设计数据集显示了140X覆盖率。来源：Scientific Reports

2. DNA片段大小和覆盖均一性对基因分型影响

随后，为了解DNA片段大小对目标区域基因分型的影响，研究团队首先比较了4个平台在相同覆盖深度情况下（通过对BAM文件的采样获得平均80X的覆盖度）的碱基识别（base calling）情况（表2、表3）。相比于短DNA片段，长DNA片段可使Twist平台的覆盖均一性提升，而部分平台的覆盖均一性降低，表明DNA片段对于均一性的影响是有平台特异性的。与短DNA片段相比，中等（M）和长（L）的DNA片段在所有平台中均表现出更好的碱基识别能力。

表2. 80X匹配率统计。对于每种平台和DNA片段长度组合，目标设计数据集的80X映射覆盖率。来源：Scientific Reports

表3.评估DNA片段大小对基因分型的影响，来源：Scientific Reports

为了评估不同覆盖深度下覆盖均一性对基因分型的影响，研究团队进一步比较了中等DNA片段长度下两个平台（Twist和Agilent）的表现（表4）。研究发现，两个平台在靶向区域80X覆盖深度下都表现出最高的均一性，且同时获得了最佳的基因分型结果。其中Twist平台在标准测序深度(%PASS)和最低深度为10(%PASS RD>10)下，基因分型分别达到了96.58%和96.51%。

表4.两种平台对中等DNA片段的覆盖均一性。来源：Scientific Reports

值得关注的是，研究团队基于具有较优均一性的Twist平台评估了DNA片段大小和覆盖均一性共同对基因分型的影响（表5）。结果表明，与短DNA片段相比，中等长度DNA片段表现出更好的均一性，目标区域可获得更高的基因分型。

表5.Twist平台中DNA片段大小和覆盖均一性对基因分型的综合影响，来源：Scientific Reports

3. 不同平台基因分型能力比较

此外，研究团队评估了4个平台对于RefSeq基因的检出情况，即在靶向覆盖深度达到80X情况下达到100% 基因分型的RefSeq基因检出数量（表6）。结果显示，与短片段相比，有三个平台在中等DNA片段条件下均检出了更多的基因数量，其中Twist平台检出最多，为17709个。

表6.不同平台RefSeq基因检出数量，来源：Scientific Reports

另一方面，在同样条件下，研究团队也评估了4个平台在不同DNA片段情况下对于3873个临床性状相关的OMIM基因的检出情况（图1）。研究发现，随着DNA片段的增长，4个平台检出达到100% 基因分型的OMIM基因数量均增加了超过150个, 同时有超过280个基因的基因分型得到了提升。

图1.各平台对不同DNA片段大小RefSeq/OMIM基因的基因分型检测，来源：Scientific Reports

4. 探索最优DNA片段大小

最后，由于Twist平台可在更长的DNA片段中获得更佳的覆盖均一性，因此研究团队选择了Twist平台作为评估对象，并确定了其靶标设计中检出的变异数量（表7）。随着DNA片段的增长，无论是从短（S）DNA片段到中等（M）DNA片段还是短（S）DNA片段到长（L）DNA片段，突变检出的累积提升都超过了1%。同样的趋势也出现在靶标RefSeq基因和OMIM基因的突变检出分析中。以上结果表明，DNA片段的增长可使基因分型能力提升1%。

为了确定最优的DNA片段大小，进而得到最好的基因分型，研究团队以Twist平台为研究对象，挑选了其内部数据库的27个样本，包括各个长度大小的DNA片段。结果显示，插入片段大小是200bp-290bp时，其覆盖均一性逐渐增高；插入大小是340bp-400bp时，其覆盖均一性有所下降。但检测200bp-400bp时，基因分型能力都是逐渐升高的，这有助于改善临床场景中的变异检测。

表7. Twist平台探索最优DNA片段大小，来源：Scientific Reports

结语

虽然覆盖深度是最常用于评估WES靶向富集技术性能的参数，但靶向区域的基因分型能提供更全面的信息，因为它既考虑到覆盖深度，又涉及序列比对的质量。Twist平台在RefSeq和OMIM基因中鉴定出的变异数量表明，基因分型是评估WES性能的更好参数，并且基因分型能力严格取决于DNA片段大小和富集平台均一性的组合。

研究团队通过评估由增加DNA片段大小（超过平均外显子的一般长度）引起的靶向区域基因分型变化，并结合富集技术开发了新的测序方法，以改善重复基因组区域的序列比对质量。该研究证实，通过增加DNA片段长度可以提高变异的识别能力。在基因分型能力增加1％的情况下，检测平台识别的变异数量也会增加1%，从而在以前因比对质量低被认为不可鉴定的区域鉴定出新的变异。另外，较长的DNA插入片段并不总是能提高靶标区域的均一性。有趣的是，在Twist平台上出现了明显的相反趋势，表明其本已较高的均一性还可以进一步提高。

在大多数情况下，更长的DNA片段可以克服基因组重复区域带来的一些测序挑战。但昂贵的长读长测序方法尚无法在大多诊断实验室中实施。该研究开发的新靶向测序方法为分析比对质量较低的基因提供了另一种选择，可帮助研究人员在设计目标区域时选择最优的DNA插入长度和富集平台组合，为研究者带来真实发现—特别是真阴性发现的正确判读，从而在基因组重复区域检测到更多的变异数量，帮助解决人类基因组重复区域测序所带来的挑战。

参考文献：

[1] Barbara I. et al. ,Shedding light on dark genes: enhanced targeted resequencing by optimizing the combination of enrichment technology and DNA fragment length. Sci Rep 10, 9424 (2020). https://doi.org/10.1038/s41598-020-66331-z

[2] Ferrarini, A. et al. The use of non-variant sites to improve the clinical assessment of whole-genome sequence data. PLoS One 10,1–15 (2015).

[3] Ebbert, M. T. W. et al. Systematic analysis of dark and camoufaged genes reveals disease-relevant genes hiding in plain sight. Genome Biol. 20, 1–23 (2019).

[4] Sakharkar, M. K., Chow, V. T. K. & Kangueane, P. Distributions of exons and introns in the human genome. In Silico Biol. 4, 387–393 (2004)

本文由 SEQ.CN 作者：戴胜发表，转载请注明来源！

关键词：DNA片段长度, WES, 基因分型, 基因组重复区域, 外显子富集平台, 序列比对

科研