NGS悬案 | 样本先生，您戴错帽子了

戴胜资讯 2017-09-19

本年度测序行业最大的新闻莫过于，illumina推出“测序洗衣机”型号——NovaSeq。2天产生2Tb数据，通量是10年前Genome Analyzer的2000倍。

更高的通量，意味着更多的样本混合上机。人们想到了给样本“戴帽子”，即在文库制备中通过Y型接头或 PCR扩增引入标签（barcode or index），然后“以帽取人”。通过构建文库时对每个样本戴上独特的“帽子”，好让生信工程师在“茫茫reads海”中一眼就看到，这是目前非常受欢迎的解决方案。然而，整个流程中，所有的操作不能保证尽善尽美，总有样本会“戴错帽子”。但是，对于高通量测序，戴错帽子不仅仅是尴尬了一下那么简单，很有可能和“重大发现”失之交臂。

2017年初，美国Standford大学的科研工作者Sinha，利用illumina Hiseq 4000对RNA样本进行测序。结果，在成千上万的类似造血干细胞中，找到41个独特的细胞亚群。本以为自己找到了真正的造血干细胞，但难以重复的实验结果使他发现，那些“激动人心的结果”只不过是在 illumina ExAmp平台的交叉污染产生的“镜花水月”。相同的文库用Nextseq 500进行测序，大部分交叉污染消失了，那些“激动人心的结果”也再也没来敲门[1]。无独有偶，Cambridge University和Swedish Bioinformatician等研究机构都发现了在Hiseq4000等型号上出现了类似的index标定到错误样品上的问题[1]。

千呼万唤始出来。今年4月份，illumina公布了题为“Effects of Index Misassignment on Multiplexing and Downstream Analysis”的白皮书[2]。坦陈了illumina一些高通量型号，如HiSeq 3000/4000，Hiseq X Series 及NovaSeq等仪器，容易出现样品标签错配（index misassignment）的问题，而这些仪器的共同点在于，都采用了新型的以Nano-Well 为特点的Patterned Flow Cell Technology（PFCT），簇生成方式也有别于传统的桥式PCR，换成了ExAmp（Exclusion Amplification，排他性扩增）。illumina生动的描述这种现象为“标签跳跃”（index hopping）[2]。

什么是sample cross-talk / index misassignment？

正如illumina在白皮书里描述的，样品标签错配一直存在于不同机型中。而造成这种现象的根本原因在于串扰（cross-talk）。而所谓的index hopping，只是在最新型的测序平台，由于PFCT和ExAmp技术的应用，凸显出来而已，是sample cross-talk的子集。

除此之外，二代测序实验过程的复杂操作也是非常容易发生cross-talk。从前期文库构建、杂交捕获到簇生成，甚至测序仪读取各个环节中，如不注意，就会导致index misassignment，引入非常规误差，正所谓“步步皆坑”。由于样品的区分完全依赖于检出的index序列，因此不同层面的cross-talk最终导致样本“张冠李戴”。

什么实验会受 index misassignment 的影响？

在二代测序的相关研究中，像Sinha这样的科学家，希望能在大海捞针的需求并非特例。竞争日趋激烈的精准医疗行业中，从一管血分离出源于肿瘤的ctDNA，从30亿对碱基中寻找低频突变，成为大家争先占领的技术高地。

在极低频突变检测中，避免假阳性是液体活检从业者格外关心的重要一环。因此探究导致index misassignment生成的背后原因以及如何避免显得尤为重要。

以下几方面的研究，很容易受到index misassignment的影响

除此之外，但凡涉及到利用NGS方法在一个高背景噪音干扰的混合物中寻求微量“阳性”数据的检测都非常容易受到index misassignment的影响。因为在同一个实验通道内的邻居样本很可能用了错误的index刷开了你家的大门。

index misassignment 产生的原因

读到这里，大家一定感叹，新技术的出现，总是“按下葫芦起来瓢”，解决完现有问题，又会引入新的问题。但是，index misassigment的“锅”不能只让ExAmp技术来背，它只是让问题重新引起了人们的重视，sample cross-talk本身从来都不是一个新问题。

二代测序整体流程上，每一个过程的微小失误都可能引入sample cross-talk。

例如，传统双端index的方法是通过少数几种index序列(8+12，共计20种)排列组合(combination)实现96种样品的标签区分。然而这种方式非常容易在加样过程中引入index交叉污染。我们假设实验过程中由于操作失误或者污染，A1中混入了1%的 A2号index，混入后组成新的i7 、i5 组合index。而该种组合在样品分配中无法将这部分错误剔除(由于A1A2 混合在一起进行测序，任何i5，i7的组合都是“合法”的)。因此原本属于A1标签的样本中的1%的测序数据就被错误的分配到A2标签的另一个样本中。

让我们再次回归到文章开始提到的Sinha的例子，利用ExAmp作为簇生成方式的patterned flow cell测序平台是造成 Sinha 实验样本错误分配的主要原因。因为在以传统桥式PCR作为簇生成方式的 non-patterned flow cell型测序仪Nextseq 500重新测序后，大部分交叉污染消失了。根据illumina发布的白皮书，其机理很可能是，游离的接头或引物在patterned flow cell 带来的sample cross-talk。

ExAmp（Exclusion Amplification）, 这种技术搭配patterned flow cell使用，大大提升了测序效率，降低了测序成本。但是illumina也观察到，与传统的桥式扩增（bridge amplification）相比，也引起了更多的样本错配。illumina还观察到，标签跳跃的程度和 spike in 的接头比例成正相关；相比在传统桥式扩增平台，在ExAmp方式下，标签跳跃的比例可高达达到2% [2]。

要知道，临床上变异的检测下限值是5%，Sanger的检测下限值是10-15%。在癌症早诊和癌症早期检测中，液体活检用户希望检测到1%以下甚至更低的低频突变。而sample cross talk发生时，NGS超深度测序优势却被样本错配拖累到不显著了。

优秀 index的自我修养

没声音，再好的戏也出不来。对于Novaseq这样两天可以产生2TB数据的超高通量测序平台，必须有与之搭配使用的多种优质index与接头，才能真正发挥其高通量的作用。下面三点是经常需要考虑的：

1、含有index序列 adapter 合成的准确性

从序列的生产起，就要把控index序列的准确性。生产全过程的质检和序列纯化不可或缺，剔除含有错配碱基和长度不完全的序列，便是控制了由于错误合成，尤其是index相关序列。如果没有完整的独立的质控，则在合成阶段就非常容易引入接头之间的串扰。

2、汉明距离Hamming Distance

在信息论中，两个等长字符串之间的汉明距离（Hamming distance）是两个字符串对应位置的不同字符的个数。简而言之，发生几次变化会将序列A变成序列B[3]。

测序平台始终存在一定的测序错误。在index的设计中，理想的汉明距离能够允许用户即使在测序过程中恰巧在测序index时发生了错读，也可以反推回正确的index。

体现在index设计方面，与index的容错率有关。index序列长度增加，可供选择的种类越多，容错率也越强。这也是为什么，为了满足更高的通量，index序列从最初的6nt，增加到8nt，甚至某些用户会想要更多[3]。

3、2-channel 及 4-channel测序平台通用性

为了提高测序的速度，illumina在NovaSeq等平台上采用了2-channel的设计。在此类测序平台中，2-channel使用混合染料，而不是对每个碱基使用单独一种染料。

这种方式，相比4-channel，每轮数据读取只需采集2次信号，速度更快。但是，碱基G是无荧光标记的，如果序列中存在连续多个G，会发生读错的概率增大。因此在针对2-channel测序平台（包括Nextseq，MiniSeq和Novaseq等illumina 测序平台）来说，index序列的选择要避免出现连续G碱基的组合情况。因此我们在设计index 时候，要考虑在2-channel和4-channel平台的通用性。

4、其他因素

除以上几点外，index设计过程中，还要考虑到GC平衡，色彩平衡等。基于多番考量后的index种类是远远少于 4n，因此每一个经过特殊设计的index 序列都弥足珍贵。这些index的接头就是实现新平台高通量样本的基石。

测序技术10年间，通量从1Gb到 2Tb，增长了2000倍。测序仪器迅速更新迭代，测序通量也是极速增加，因此在NGS过程，对每个样本不“张冠李戴”对于NGS从业者来说至关重要。希望大家在享受高通量平台的便捷的时候，给自己的样本戴上“好帽子”。在illumina优化平台之前，我们只能接受这种不完美，但是总有解决办法来弥补这个缺陷。

参考文献

[1]Sinha R, Stanley G, Gulati G S, et al. Indexswitching causes “spreading-of-signal” among multiplexed samples in Illumina HiSeq 4000 DNA sequencing[J]. bioRxiv, 2017: 125724.

[2]illumina.Effects of index misassignment on multiplexing and downstream[Z] Analysis.

[3]Bystrykh L V. Generalized DNA barcode designbased on Hamming codes[J]. PloS one, 2012, 7(5): e36852.

9月19日晚8点，Integrated DNA Technolgoies 公司 NGS产品研发部门生信科学家王家石博士将受邀进行在线讲座。王博士将在课程中探讨引入样本串扰的各个实验阶段和相关原因，进一步展示IDT “新型3合1接头”剔除样本串扰的功能。

本文由 SEQ.CN 作者：戴胜发表，转载请注明来源！

关键词：2-channel, 4-channel, adapter 合成, index, PCR, 低频突变, 帽子, 标签, 纳昂达, 高通量

资讯