文章发表在Nature Biotechnology
图1. C.Origami预测特定细胞类型的3D染色质构象。
为检测不同输入组合下的模型性能,研究团队利用来自IMR-90细胞(肺成纤维细胞)的数据,使用三种潜在输入特征的所有可能组合来训练模型(图2)。结果显示,经DNA序列、CTCF ChIP-seq和ATAC-seq信号训练的C.Origami性能最佳,可准确地预测重要的拓扑结构域及染色质环的contact矩阵。在模型训练期间删除或替换任何三个输入特征都会导致性能下降;在模型推断期间删除任何输入特征都会造成较差的预测。
图2. C.Origami准确预测了3D染色质构象。
研究团队使用相应的CTCF ChIP-seq和ATAC-seq谱,将C.Origami应用于新的细胞类型GM12878,评估了其在细胞类型特异性从头预测任务中的性能(图3)。结果显示,C.Origami预测的GM12878细胞数据与实验数据高度一致,在IMR-90细胞上训练的模型能够准确预测出GM12878细胞中特定的染色质构象。进一步,研究团队将C.Origami应用到其他两种细胞系中(胚胎干细胞(H1-hESCs)和白血病K562细胞),得到了同样准确的预测结果,证明了C.Origami的稳定性及其广泛的应用潜力。
图3. 细胞类型特异性的染色质结构预测。
识别染色质组织所需的顺式作用元件对3D基因组研究至关重要。基于C.Origami的模型架构,并受到反向遗传筛选原理的启发,研究团队开发了全新的ISGS框架,用以系统鉴定细胞类型特异性的顺式作用元件(图4)。通过进行全基因组1kb分辨率的ISGS,研究团队分离出了对染色质构象有重要影响的顺式作用元件(占约1%的基因组);染色质构象调控序列呈现出对CTCF结合和ATAC-seq信号的不同依赖度。
图4. 高通量计算遗传筛选ISGS识别了决定染色质构象的顺式调控元件。
为系统性识别T细胞急性淋巴细胞白血病(T-ALL)特异性顺式作用元件,研究团队在细胞模型CUTLL1、Jurkat和正常初始T细胞中分别进行了ISGS,并计算了全基因组影响评分。为将由ISGS鉴定的有影响的顺式作用元件与T-ALL中的染色质重塑基因相关联,研究团队还在CUTLL1和Jurkat细胞中进行了针对染色质重塑因子的混合CRISPR敲除筛选(图5)。
图5. C.Origami-based ISGS揭示了细胞类型特异性的顺式作用元件和反式作用的染色质折叠调控因子。
综上所述,该研究结合DNA序列和基因组特征开发了一种多模态深度神经网络学习模型C.Origami,可用于预测染色质结构。C.Origami能够从一种细胞类型中了解支配染色质的一般规则,并外推预测其他的细胞类型,包括来自不同哺乳动物物种的细胞类型。高性能和对输入数据的最低要求使得C.Origami通常适用于需要分析染色质构象的实验研究,并可推广到其他基因组学数据的应用中。
参考文献:
Tan, J., Shenker-Tauris, N., Rodriguez-Hernaez, J. et al. Cell-type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening. Nat Biotechnol (2023). https://doi.org/10.1038/s41587-022-01612-8
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!