为此,加州大学戴维斯分校研究团队联合Pacific Biosciences公司团队将3C技术与PacBio HiFi长读长测序相结合,开发了长读长染色体构象捕获技术CiFi。该技术利用无偏全基因组扩增,可从低样本量产生高质量的长片段映射和染色质相互作用,以分析重复区域之间的基因组相互作用。结果显示,CiFi仅需使用60,000个细胞(亚微克DNA)即可生成数千bp的HiFi reads,包含多个相互作用的基因片段,片段长度范围在~350bp-2kbp,可在处理复杂重复序列的同时更准确地绘制基因图谱,并提升了对单倍型的相位分析能力。与现有方法相比,CiFi需要更少的样本量,其在人类细胞和单个小昆虫的应用证明了在解决染色质相互作用方面的改进,并产生了只需要数万个细胞的染色体规模组装。

为结合3C与PacBio HiFi测序,研究团队进行了多次探索。研究假设,在进行3C分析后,DNA上仍然存在一些残留的交联结构,这些结构会阻碍测序工作的顺利进行。因此,研究人员针对这类难以处理的样本,设计了一种基于全基因组扩增的技术流程——在测序之前,使用高保真度的PCR酶来富集未发生交联的DNA分子(图1A),极大地提高了原始序列产量和标准测序性能的reads长度(平均105kbp),并转化为HiFi数据(聚合酶读取49.3%,平均reads长度30.6Gbp,平均reads长度9.35kbp,中位reads质量值(QV)38)。
为了研究多交联片段长度及其产生的重复基因组区域分辨率的影响,研究团队分别使用DpnII(4 cutter)和HindIII(6 cutter)进行3C,然后进行扩增、大小选择(>5kbp)和HiFi测序。根据所得的HiFi reads(中位长度为7.6kbp),随后展开的计算模拟连接显示,使用DpnII酶进行切割时,能够生成17个长度为350bp的片段;使用HindIII酶进行切割时,则只能生成2个长度为1,893bp的片段(图1C-D)。综上,采用不同限制性内切酶可实现灵活的分辨率控制:DpnII能从单个CiFi片段中获取更多交互作用和数据,但片段长度较短;HindIII产生的成对相互作用较少,但片段长度较长。

图1.CiFi生成无偏差的3C串联长reads。
研究团队将CiFi串联reads与人类参考基因组(T2T-CHM13_v2)进行比对,发现DpnII和HindIII的大部分片段都指向同源染色体,这种模式在独特(80.0%)和重复(79.3%)区域都是一致的(图2A)。随后,将每个HiFi reads片段转换为成对相互作用并应用于每个CiFi数据集,显示DpnII的交互次数为19亿次,HindIII的交互次数为3850万次;染色体内成对相互作用显示出预期的3C衰减,随着距离的增加,跨越所有长度尺度,远至超过100Mbp(人类染色体的平均大小;图2B)。此外,与GM12878生成的101bp双端Hi-C数据集相比,DpnII和HindIII CiFi显示出更多的远距离染色体内相互作用。
比较两组数据显示,CiFi展现出了更优的表征能力与覆盖范围,包括短散在核元件(如SINEs、Alu和Mir)、长散在核元件(如LINEs L1和L2)、同源性为90%或98%的片段重复序列,以及包含或不包含着着丝粒转换区段的着丝粒区域(图2C)。其中,SDs和着丝粒的改善最为明显。与已发表长读长Pore-C数据集的比较显示,CiFi(DpnII和HindIII)在reads百分比和覆盖率方面的映射表现具有可比性。
研究团队使用GM12878端粒到端粒的组装技术为已定位的reads映射相位,以评估CiFi产生的长reads是否能改善单倍型相位。结果显示,CiFi获得的reads中,有23.9%的相位得到了准确的确定,在对比的Hi-C技术中,这一比例为6.9%。分析发现,在比较单个CiFi reads的片段相位时,97.8%的reads映射到同一染色体上,具有相同的单倍型。基于这一结果,研究人员将相位信息输入到CiFi reads的同源片段中,这些片段映射在30Mbp内,具有一致分配的相位。这种方法能够保守地为80.3%的CiFi片段分配单倍型相位,为10.9%的Hi-C片段分配单倍型相位。总体而言,改进的相位测定方法对于利用二倍体(或多倍体)基因组来表征染色质结构,以及构建高质量、相位准确的基因组组装具有重要意义。

图2.短读长和长读长3C方法之间的片段映射比较。
研究团队使用两两数据生成全基因组接触矩阵,发现DpnII CiFi和Hi-C技术检测到的基因组相互作用在2.5Mbp分辨率下,能够广泛地覆盖各种染色体(r2 = 0.89),并且在增加分辨率时相关性进一步增强。在整个基因组范围内,CiFi数据与Hi-C技术检测的TAD结构之间存在高度一致性。DpnII CiFi及Pore-C的比较显示,在2.5Mbp的分辨率下,全基因组范围内的接触矩阵呈现出更为强烈的相关性,识别的TAD结构也表现出高度的一致性(图3)。与Hi-C技术相比,CiFi技术划定的TAD中出现缺口的频率较低,且在重复区域的差异更为显著(SDs:8.6% (CiFi)vs 18%(Hi-C);着丝粒:15%(CiFi)vs 34%(Hi-C))。同时,CiFi检测到侧翼SDs之间没有交叉,而Hi-C为8%。此外,研究表明使用CiFi表征基因组热点的染色质相互作用,有助于理解结构变异如何影响基因调控和潜在的疾病病因。

图3.人LCL GM12878的成对染色质接触。
为探索CiFi的低样本量分析性能,研究团队将GM12878 DpnII CiFi样本从1000万个细胞(~60μg DNA)减少到62,000个细胞(~370ng),相差100多倍,结果发现,不同的起始样本量下,测序结果以及获得的接触矩阵数据都呈现出一致性。
由于所需的样本量远低于传统技术,研究人员将CiFi应用于一些小型昆虫的分析。例如利用一只雄性库蚊(初始DNA输入量约250ng),CiFi生成了237万条HiFi reads和2110万条中位长度为509bp的片段。与人类数据一样,DpnII CiFi数据中映射在染色体内较远距离上的片段所占的比例要高于Hi-C数据集(图4A)。片段映射比较发现,CiFi技术在表征独特区域、插入型异染色质、着丝粒旁异染色质、假定的着丝粒区域以及富含重复序列的异染色质区域时明显优于Hi-C技术(图4B)。总之,以上结果表明,CiFi分析的样本量能够从数百万个细胞缩小到数万个细胞,且在不牺牲检测染色质相互作用能力的情况下,在低起始量样本中改善重复区域的片段映射。

图4.一只雄性库蚊的3C分析。
此外,研究团队还从同一只雄性地中海果蝇个体分别获取了PacBio HiFi全基因组测序数据以及CiFi测序结果,完成了对该果蝇约600Mbp基因组的组装,构建了染色体级别的基因组图谱。结果显示,CiFi不仅可以从低样本量中生成数据,文库特征与标准HiFi文库高度相似,足以用于表征底层基因组和正在处理的细胞核的三维结构,且CiFi生成染色体规模组装所需的数据较少。此外,CiFi数据在异染色质区域提供了更多信息。综上,CiFi技术为研究样本量较少的样本以及小型生物体的染色体级相互作用提供了有力工具。
该研究提出的CiFi方法能够对来自不同物种和样本类型的3C文库进行高效的PacBio HiFi测序,允许使用来自一种测序技术的数据进行高质量、染色体尺度的从头基因组组装,也可以进行单次测序运行。与基于短读长测序的Hi-C技术相比,CiFi方法能够提高重复区域中的片段映射率与覆盖范围,同时也有助于更准确地分析单倍型。在识别染色体着丝粒之间的结构关联以及分析与人类疾病相关的基因组热点区域方面,CiFi技术也表现出更强的优势。
虽然CiFi方法仍存在一些局限性,例如限制性内切酶的使用有可能在分析区域引入偏差,但研究团队预计,低样本量需求将扩大3C长读长测序在许多单一小生物体以及其他样本类型中的应用,包括分离的细胞类型和肿瘤活检等疾病标本。
原文信息:
McGinty, S.P., Kaya, G., Sim, S.B. et al. CiFi: accurate long-read chromosome conformation capture with low-input requirements. Nat Commun (2025). https://doi.org/10.1038/s41467-025-66918-y
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!