科研

首页 - 全部文章 - 科研 - Cell子刊 | 基于纳米孔DNA甲基化测序和Strand-seq进行亲源检测及染色体长度单倍体分型

Cell子刊 | 基于纳米孔DNA甲基化测序和Strand-seq进行亲源检测及染色体长度单倍体分型

导读
单倍体分型(Phasing)通常被定义为区分母本和父本同源等位基因的任务,但目前多数单倍体分型方法往往将来自每个染色体或亚染色体的等位基因分组为两个单倍型,使其对应于不同的同源染色体,而不分配起源亲本(PofO),这在很大程度上无法获得真实的单倍体分型信息。

无需对家庭中任意一方进行检测,是定义致病变异PofO的主要临床效用。此外,建立染色体长度(chromosome-length)单倍型与精准的亲本基因组变异检测也具有广泛的应用前景。

近日,加拿大迈克·史密斯基因组科学中心、不列颠哥伦比亚大学医学院的研究团队合作在Cell Genomics上发表了题为“Parent-of-origin detection and chromosome-scale haplotyping using long-read DNA methylation sequencing and Strand-seq”的文章。研究团队将纳米孔甲基化测序与单细胞模板链测序(Strand-seq)数据中的远程相位信息相结合,以确定5个具有不同遗传背景的父-母-子组(Trio)中DNA序列和DNA甲基化的染色体长度单倍型的亲源父母。该方法对所有常染色体都正确地推断出了起始父/母本染色体,SNV的平均错配错误率为0.31%,插入或删除(Indels)的平均错配错误率为1.89%。因此,该方法可以确定遗传疾病等位基因是来自母亲还是父亲,进而有可能改善许多遗传疾病的诊断及管理。

文章发表在Cell Genomics

研究团队使用了NA12878、瓶中基因组联盟(GIAB)的HG002和HG005、人类基因组结构变异联盟(HGSVC)的HG00733以及千人基因组计划(1kGP)的NA19240进行了研究。对于所有样本,均使用纳米孔测序数据和Strand-seq库进行了分析;并从纳米孔测序中检测单核苷酸变异(SNV)和小片段插入/缺失(InDel)

对于SNV和InDel,研究团队在纳米孔覆盖面积最大的个体中恢复了最大比例的ground-truth变体;在覆盖面积最小的个体中恢复了最小比例的ground-truth变体。上述结果表明,纳入更多的纳米孔数据是解决InDel高假阴性率的方法之一

表1. 杂合变体的单倍体分型及与ground truth调用集的比较。

在印迹差异甲基化区域(iDMR)上,PofO特异性DNA甲基化提供了一个独特的信息来源以确定同源PofO,其由染色体长度单倍型表示,而不依赖亲本序列数据。研究团队从先前全基因组研究中收集了192个iDMR的列表,将来自相位纳米孔测序的DNA甲基化信息与印迹区间的已知PofO信息相结合,并将PofO分配给每个同源染色体(图1)。结果显示,平均使用5.7 iDMR对每条染色体进行PofO分配,每条染色体以95.7%的平均置信度被分配到亲本

图1. 在HG002中,父本和母本iDMR上的CpG甲基化用于PofO分配。

接下来,研究团队检测了5例个体的220个常染色体同源物,并将推断的PofO与指定的PofO进行比较。结果显示,所有220个同源物都被正确地分配了PofO,即染色体长度单倍型被正确地识别为母系或父系,并且几乎没有相位误差(图2)。

研究团队使用至少在两项研究中发现的93个iDMR重新进行PofO分配,检测了PofO单倍体分型对单项研究iDMR的依赖性。结果显示,220个常染色体同源物中有208个被正确分配了PofO(94.5%);NA19240的5号染色体没有分配PofO;由于没有iDMR,12号染色体也没有分配PofO。上述结果表明,可能是因为所有常染色体都至少有三个iDMR(除17号染色体有一个,3号染色体有两个),PofO单倍体分型并不依赖于特征不明显的iDMR

图2. 杂合- SNV PofO的染色体分配结果。

为进一步确认PofO单倍体分型能够提取可靠的亲本信息,研究团队计算了每个孩子推断的父母单倍型与其父母ground-truth变异基因型之间的孟德尔错误率(图3)。结果显示,HG002的局部相位误差出现在8号染色体常见的倒位异构处,其孟德尔错误率升高。此外,HG002整体相位误差最大,其次是9号染色体着丝粒。孟德尔错误率分析结果显示,所有染色体的PofO分配都是正确的。

图3. 孟德尔错误率表明PofO单倍体分型正确地推断了亲本单倍型。

综上所述,当纳米孔甲基化、iDMR与Strand-seq染色体长度单倍型分析整合时,每个人常染色体全长上的等位基因可以被分配到母本或父本同源染色体上。该方法不需要父母的序列数据或SNV联合分析,仅依靠所有人类常染色体至少有一个已知父母来源的iDMR。通过对选定家庭成员的测序工作来追踪致病变异,该方法有助于改善级联基因检测及遗传疾病的筛查。

参考文献:

Vahid Akbari, Vincent C.T. Hanlon, Kieran O’Neill. et al. Parent-of-origin detection and chromosome-scale haplotyping using long-read DNA methylation sequencing and Strand-seqbackgrounds. Cell Genomics(2022).

https://www.cell.com/cell-genomics/fulltext/S2666-979X(22)00191-4

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章