思考

样本总是“戴错帽子”?解读错配率趋于0的DNA纳米球技术

进入高通量时代,更多的样本混合上机成为常态。研究人员在构建文库时,将不同的index加到每个样品上,就像给它们戴上独特的“帽子”,这让生信工程师能在“茫茫reads海”中一眼就看到自己的目标。这一方案降低了测序成本,使临床基因测序得到广泛应用。

但是,在实际流程中,不能保证所有操作的准确率100%,总有样本会“戴错帽子”。最近研究发现[2-8],基于ExAmp(排他性扩增)的测序平台,例如HiSeq 3000/4000、HiSeq X Ten以及NovaSeq, 混样上机测序会出现index错误分配(index hopping)问题, 样本错误分配率超过1%,且对于PCR-free文库,index hopping比例可高达6%[5]。即使采用繁琐的non-combinatorial dual index方案来解决这个问题,index污染率也只能降低到0.08%[5]。

今年6月份,bioRxiv公开了题为《Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform》[1]的文章,使用三种主要的文库制备方法研究了DNB测序平台的Index hopping问题。

其中,BGISEQ测序仪利用独特的DNA纳米球(DNB)技术,基于滚环复制(RCR)进行文库扩增,这种线性扩增可以避免常规PCR带来的错误累积。基于DNB的NGS应用仅使用单个index就实现了0.0001%至0.0004%低样本错误分配率。此外,用水代替DNA,加入index,增加空白对照,DNB测序平台发生错误匹配的概率为36 million reads分之一,即0.0000028%。

图1.不同测序技术的index hopping比例

DNB测序平台的极低的index hopping比例,不仅可以有效避免样本的“张冠李戴”,还可带来以下效果:

  1. 高的检测准确度,保证体细胞低频突变、HPV检测等基因检测的准确性[1];

2. Single index避免了繁琐的non-combinatorial dual index带来的额外成本和劳动力浪费[2];

3. 避免大通量测序中样本数据完整性的丢失。

DNB测序平台具有极少index hopping的原因及解决方法

1.DNA纳米球技术的高index保真度

BGISEQ平台将DNB加载到规则阵列(patterned arrays)上,并利用组合引物锚定测序技术(cPAS)进行测序[9]。独特的DNB技术采用具有强链置换活性的Phi29聚合酶和能够进行线性扩增的RCR工艺,每个扩增循环都以原始的单链环状DNA文库为模板,保持每个拷贝子的独立性(图2a)。因此,即使出现寡核苷酸的index hopping等错误,也不会累积错误拷贝,正确的序列总是会在后面的DNA拷贝中复制,保证最高的扩增保真度。

图2. Index hopping在不同的测序平台产生的机制

2.信号外溢造成极少的index hopping

Index污染可以通过实验操作、PCR错误、测序错误、寡核苷酸合成错误引入。为了检测BGISEQ平台极少index hopping的原因,研究人员首先找到那些出现错配的DNB,调查其测序质量。发现这些不匹配的DNB在index区域的平均Q30仅为36.66%,显著低于正确匹配的DNB的index区域(平均Q30 = 91.19%)。同时,统计了DNB在芯片上的位置,并计算了与其周围DNB共享相同index序列的概率。平均而言,无index hopping的DNB与相邻DNB共享相同index序列的概率为20.21%,存在index hopping的DNB共享相同index 的概率则为57.04%。该结果表明相邻DNB的信号外溢造成了index hopping。对于这种情况,index的测序质量通常偏低,研究人员可以通过Q30>60%过滤来降低因此产生的index hopping

3. Oligo合成污染为另一主要原因

与原因2不同,研究人员还发现EFEMP2 / LOX被错误分配到index 7的 reads的index区域的测序质量值很高(平均Q30 = 85.03%和82.38%),如表1所示。index 2和index 7之间的汉明距离是8,索引3和7之间的汉明距离是9,因此,EFEMP2 / LOX 的index hopping也不太可能由随机测序错误引起的。

很可能的一个原因是,Index 7 oligo在合成或寡核苷酸处理过程中污染了其他寡核苷酸,导致在测序时候在其他的里面发现了index7。寡核苷酸合成污染可能是index错误分配的另一个主要原因,可通过使用IDT的TruGrade的oligo,有效避免此类index hopping的产生。

表1. BGISEQ平台的index hopping结果

此外,对于PCR-free的文库,由于起始量高,需要加入更多浓度的index,因此相比PCR文库更容易造成去除不干净的情况[2],如图3所示:

图3. PCR-free和PCR在两种测序芯片上index hopping比例的比较[2]

除了常规PCR文库外,文中还对PCR-free文库在BGISEQ平台的index hopping情况进行调查,未经过任何Q30过滤的99.9998%精度再次证实了DNB可以在很大程度上最小化index污染。与上面的常规PCR文库类似,污染率平均约为0.0004%。

表2. PCR-free 文库index污染比率

最后,对目标区域捕获文库进行测试,BGI肺癌试剂盒的数据验证了DNB测序平台上的single index不易发生index hopping,可用于准确检测癌症等疾病的低频变异。结果显示在不同库类型中BGISEQ index hopping比率都非常低,表明DNB测序技术的数据准确性不受文库构建方法的影响

未来,测序通量极速扩大是大概率事件,避免样本的“张冠李戴”显得更加重要。基于DNB技术的测序平台,凭借极低的错误分配率和不断完善的技术,将有望提升数据质量,帮助科研人员牢牢把握精准数据以及背后的重大发现。这对所有科研人员而言,都是一个振奋人心的进步。

BGISEQ测序仪

参考文献:

[1] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137

[2] Illumina. Effects of Index Misassignment on Multiplexing and Downstream Analysis (white paper). 4 (2017). doi:10.1101/125724

[3] Macconaill L E, Burns R T, Nag A, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. Bmc Genomics, 2018, 19(1):30.

[4] Sinha, R, Stanley G, Gulati GS, et al. Index Switching Causes “Spreading-Of-Signal” Among Multiplexed Samples In Illumina HiSeq 4000 DNA Sequencing. bioRxiv,125724 (2017). doi:10.1101/125724.

[5] Costello M, Fleharty M, Abreu J, et al. Characterization and remediation of sample index swaps by non-redundant dual indexing on massively parallel sequencing platforms. BMC Genomics, 2018 May 8;19(1):332.

[6] Griffiths J A, Lun A T L, Richard A C, et al. Detection and removal of barcode swapping in single-cell RNA-seq data:[J]. Nature Communications, 2018, 9.

[7] Vodák D, Lorenz S, Nakken S, et al. Sample-Index Misassignment Impacts Tumour Exome Sequencing.[J]. Scientific Reports, 2018, 8(1):5307.

[8] Van der Valk, T. et al. Low rate of index hopping on the Illumina HiSeq X platform. bioRxiv 179028 (2018). doi:10.1101/179028

[9] Huang J, Liang X, Xuan Y, et al. A reference human genome dataset of the BGISEQ-500 sequencer[J]. Gigascience, 2017, 6(5):1-9.

(2)

本文由 测序中国 作者:白云 发表,转载请注明来源!

热评文章