思考

NGS悬案 | 样本先生,您戴错帽子了

本年度测序行业最大的新闻莫过于,illumina推出“测序洗衣机”型号——NovaSeq。2天产生2Tb数据,通量是10年前Genome Analyzer的2000倍。

更高的通量,意味着更多的样本混合上机。人们想到了给样本“戴帽子”,即在文库制备中通过Y型接头或 PCR扩增引入标签(barcode or index),然后“以帽取人”。通过构建文库时对每个样本戴上独特的“帽子”,好让生信工程师在“茫茫reads海”中一眼就看到,这是目前非常受欢迎的解决方案。然而,整个流程中,所有的操作不能保证尽善尽美,总有样本会“戴错帽子”。但是,对于高通量测序,戴错帽子不仅仅是尴尬了一下那么简单,很有可能和“重大发现”失之交臂。

2017年初,美国Standford大学的科研工作者Sinha,利用illumina Hiseq 4000对RNA样本进行测序。结果,在成千上万的类似造血干细胞中,找到41个独特的细胞亚群。本以为自己找到了真正的造血干细胞,但难以重复的实验结果使他发现,那些“激动人心的结果”只不过是在 illumina ExAmp平台的交叉污染产生的“镜花水月”。相同的文库用Nextseq 500进行测序,大部分交叉污染消失了,那些“激动人心的结果”也再也没来敲门[1]。无独有偶,Cambridge University和Swedish Bioinformatician等研究机构都发现了在Hiseq4000等型号上出现了类似的index标定到错误样品上的问题[1]。

千呼万唤始出来。今年4月份,illumina公布了题为“Effects of Index Misassignment on Multiplexing and Downstream Analysis”的白皮书[2]。坦陈了illumina一些高通量型号,如HiSeq 3000/4000,Hiseq X Series 及NovaSeq等仪器,容易出现样品标签错配(index misassignment)的问题,而这些仪器的共同点在于,都采用了新型的以Nano-Well 为特点的Patterned Flow Cell Technology(PFCT),簇生成方式也有别于传统的桥式PCR,换成了ExAmp(Exclusion Amplification,排他性扩增)。illumina生动的描述这种现象为“标签跳跃”(index hopping)[2]。

什么是sample cross-talk / index misassignment?

正如illumina在白皮书里描述的,样品标签错配一直存在于不同机型中。而造成这种现象的根本原因在于串扰(cross-talk)。而所谓的index hopping,只是在最新型的测序平台,由于PFCT和ExAmp技术的应用,凸显出来而已,是sample cross-talk的子集。

除此之外,二代测序实验过程的复杂操作也是非常容易发生cross-talk。从前期文库构建、杂交捕获到簇生成,甚至测序仪读取各个环节中,如不注意,就会导致index misassignment,引入非常规误差,正所谓“步步皆坑”。由于样品的区分完全依赖于检出的index序列,因此不同层面的cross-talk最终导致样本“张冠李戴”。

什么实验会受 index misassignment 的影响?

在二代测序的相关研究中,像Sinha这样的科学家,希望能在大海捞针的需求并非特例。竞争日趋激烈的精准医疗行业中,从一管血分离出源于肿瘤的ctDNA,从30亿对碱基中寻找低频突变,成为大家争先占领的技术高地。

在极低频突变检测中,避免假阳性是液体活检从业者格外关心的重要一环。因此探究导致index misassignment生成的背后原因以及如何避免显得尤为重要

以下几方面的研究,很容易受到index misassignment的影响

除此之外,但凡涉及到利用NGS方法在一个高背景噪音干扰的混合物中寻求微量“阳性”数据的检测都非常容易受到index misassignment的影响。因为在同一个实验通道内的邻居样本很可能用了错误的index刷开了你家的大门。

index misassignment 产生的原因

读到这里,大家一定感叹,新技术的出现,总是“按下葫芦起来瓢”,解决完现有问题,又会引入新的问题。但是,index misassigment的“锅”不能只让ExAmp技术来背,它只是让问题重新引起了人们的重视,sample cross-talk本身从来都不是一个新问题。

二代测序整体流程上,每一个过程的微小失误都可能引入sample cross-talk

例如,传统双端index的方法是通过少数几种index序列(8+12,共计20种)排列组合(combination)实现96种样品的标签区分。然而这种方式非常容易在加样过程中引入index交叉污染。我们假设实验过程中由于操作失误或者污染,A1中混入了1%的 A2号index,混入后组成新的i7 、i5 组合index。而该种组合在样品分配中无法将这部分错误剔除(由于A1A2 混合在一起进行测序,任何i5,i7的组合都是“合法”的)。因此原本属于A1标签的样本中的1%的测序数据就被错误的分配到A2标签的另一个样本中。

让我们再次回归到文章开始提到的Sinha的例子,利用ExAmp作为簇生成方式的patterned flow cell测序平台是造成 Sinha 实验样本错误分配的主要原因。因为在以传统桥式PCR作为簇生成方式的 non-patterned flow cell型测序仪Nextseq 500重新测序后,大部分交叉污染消失了。根据illumina发布的白皮书,其机理很可能是,游离的接头或引物在patterned flow cell 带来的sample cross-talk

ExAmp(Exclusion Amplification), 这种技术搭配patterned flow cell使用,大大提升了测序效率,降低了测序成本。但是illumina也观察到,与传统的桥式扩增(bridge amplification)相比,也引起了更多的样本错配。illumina还观察到,标签跳跃的程度和 spike in 的接头比例成正相关;相比在传统桥式扩增平台,在ExAmp方式下,标签跳跃的比例可高达达到2% [2]。

要知道,临床上变异的检测下限值是5%,Sanger的检测下限值是10-15%。在癌症早诊和癌症早期检测中,液体活检用户希望检测到1%以下甚至更低的低频突变。而sample cross talk发生时,NGS超深度测序优势却被样本错配拖累到不显著了。

优秀 index的自我修养

没声音,再好的戏也出不来。对于Novaseq这样两天可以产生2TB数据的超高通量测序平台,必须有与之搭配使用的多种优质index与接头,才能真正发挥其高通量的作用。下面三点是经常需要考虑的:

1、含有index序列 adapter 合成的准确性

 从序列的生产起,就要把控index序列的准确性。生产全过程的质检和序列纯化不可或缺,剔除含有错配碱基和长度不完全的序列,便是控制了由于错误合成,尤其是index相关序列。如果没有完整的独立的质控,则在合成阶段就非常容易引入接头之间的串扰。

2、汉明距离Hamming Distance

在信息论中,两个等长字符串之间的汉明距离(Hamming distance)是两个字符串对应位置的不同字符的个数。简而言之,发生几次变化会将序列A变成序列B[3]。

测序平台始终存在一定的测序错误。在index的设计中,理想的汉明距离能够允许用户即使在测序过程中恰巧在测序index时发生了错读,也可以反推回正确的index。

体现在index设计方面,与index的容错率有关。index序列长度增加,可供选择的种类越多,容错率也越强。这也是为什么,为了满足更高的通量,index序列从最初的6nt,增加到8nt,甚至某些用户会想要更多[3]。

3、2-channel 及 4-channel测序平台通用性

为了提高测序的速度,illumina在NovaSeq等平台上采用了2-channel的设计。在此类测序平台中,2-channel使用混合染料,而不是对每个碱基使用单独一种染料。

这种方式,相比4-channel,每轮数据读取只需采集2次信号,速度更快。但是,碱基G是无荧光标记的,如果序列中存在连续多个G,会发生读错的概率增大。因此在针对2-channel测序平台(包括Nextseq,MiniSeq和Novaseq等illumina 测序平台)来说,index序列的选择要避免出现连续G碱基的组合情况。因此我们在设计index 时候,要考虑在2-channel和4-channel平台的通用性。 

4、其他因素

 除以上几点外,index设计过程中,还要考虑到GC平衡,色彩平衡等。基于多番考量后的index种类是远远少于 4n,因此每一个经过特殊设计的index 序列都弥足珍贵。这些index的接头就是实现新平台高通量样本的基石

测序技术10年间,通量从1Gb到 2Tb,增长了2000倍。测序仪器迅速更新迭代,测序通量也是极速增加,因此在NGS过程,对每个样本不“张冠李戴”对于NGS从业者来说至关重要。希望大家在享受高通量平台的便捷的时候,给自己的样本戴上“好帽子”。在illumina优化平台之前,我们只能接受这种不完美,但是总有解决办法来弥补这个缺陷。

参考文献

[1]Sinha R, Stanley G, Gulati G S, et al. Indexswitching causes “spreading-of-signal” among multiplexed samples in Illumina HiSeq 4000 DNA sequencing[J]. bioRxiv, 2017: 125724.

[2]illumina.Effects of index misassignment on multiplexing and downstream[Z] Analysis.

[3]Bystrykh L V. Generalized DNA barcode designbased on Hamming codes[J]. PloS one, 2012, 7(5): e36852.

9月19日晚8点,Integrated DNA Technolgoies 公司 NGS产品研发部门生信科学家王家石博士将受邀进行在线讲座。王博士将在课程中探讨引入样本串扰的各个实验阶段和相关原因,进一步展示IDT “新型3合1接头”剔除样本串扰的功能。

(2)

本文由 测序中国 作者:戴胜 发表,转载请注明来源!

热评文章