开讲啦，一作！国家杰青李昂生教授：如何从低分辨率Hi-C数据识别高分辨率3D基因组结构？

王迪探基, 科研 2018-08-30

人类基因组的30亿碱基对大约有2米长，却有规律地折叠在直径约5微米的细胞核内，以完成所有的基因组“编码”功能。基因组的时空表达模式决定了组织器官的正常发育，而基因表达调控与三维基因组结构密切相关。三维基因组结构研究是国家重大需求和国际科学前沿，但我们对人类三维基因组结构的认识才刚刚起步。

经过两周的精心准备，“开讲啦，一作！”今晚将再次为大家奉上基因测序行业第一作者最新技术动态。国家杰出青年科学基金获得者、北京航空航天大学计算机学院软件开发环境国家重点实验室的李昂生教授将于今晚8点与我们共同分享《如何从低分辨率Hi-C数据识别高分辨率3D基因组结构？》。

开课时间：8月29日20点主讲人：北京航空航天大学李昂生教授讲者简介：李昂生，北京航空航天大学计算机学院软件开发环境国家重点实验室教授，中国科学院软件研究所计算机科学国家重点实验室研究员，2008年入选中国科学院“百人计划”，在可计算性理论方面取得一系列成果。

李昂生教授曾与英国Cooper教授合作，在2008年彻底解决了加拿大著名可计算性理论学家Lachlan 1967年提出的著名难题：Major sub-degree problem。他的研究领域包括网络空间的结构与计算理论、结构信息论与网络算法等，取得一系列原始创新成果。2016年和潘祎诚合作创立结构信息论，解决了Shannon 1953年提出的建立信息的结构理论的重大科学问题，在信息工程、癌细胞分类、智慧搜索、文本聚类、生物分子结构分析、网络安全性理论与与网络攻防、通信网络理论、新学习理论等方面有重要理论理论价值与显著应用。

作为负责人或主要成员，李昂生教授完成和承担了国家自然科学基金委员会的多项重点项目，其中单独负责的一项和作为主要完成人的一项被评为“特优”。近几年作为第一作者在国外著名学术刊物发表论文数十篇。2003年获得国家杰出青年科学基金。

研究背景

从基因转录到DNA的复制和损伤修复等，高等真核生物的核内活动基本上都和基因组的三维空间结构息息相关。随着组学技术的逐步发展，基于染色质构象捕获技术（3C）的各种技术变体得到了迅猛的发展，其中比较常见的技术就是Hi-C和ChIA-PET。这些技术也引爆了3D基因组学研究领域。其中，Hi-C是无偏性的全基因组检测染色质相互作用，但是它分辨率相对比较低，测序量要求高。ChIA-PET针对特定的介导蛋白，具有高分辨率、测序量较低的特点，但是技术复杂、对初始的细胞数量要求很高，目前应用没有Hi-C广泛。

由于上述技术复杂度和数据分辨率之间的矛盾，3D基因组学的研究，还难以在类似精准医学人群队列研究中大规模展开，也难以对极少量细胞的样本得到高分辨率的数据。尤其是对于单细胞Hi-C来说，在目前的分辨率水平下，在单个细胞的基因组中是否存在特定的拓扑结构域（TAD）都还存在争议。如果有一种方法，以能够低成本、快速的从极低分辨率Hi-C数据中获得高分辨率的染色质空间结构，就有望解决上述难题。

本期分享文章

近日，李昂生教授与中国科学院北京基因组研究所的张治华研究员团队发表重磅论文，利用了低分辨率的Hi-C结合其他的表观组数据去预测高分辨率的TAD和相互作用(loop)的方法，使得在大样本中，快速、低成本获得染色质高精度结构信息成为一种可能。该方法基于李昂生团队之前发展的结构信息熵理论，应用低分辨率的Hi-C预测高分辨率TAD。李昂生、张治华团队创造性地把Hi-C数据看作是一个相互连接的网络。基于此，他们开发了称之为deDoc的算法。相关论文于2018年8月15日在线发表于《自然·通讯》（Nature Communications）期刊上。

deDoc的两个重要特征，使得它显著的区别于当前其他方法。第一，deDoc不需要对数据归一化。也就是说，对于Hi-C数据，deDoc可以直接用原始测序数据。这一特征是非常重要的，因为正确的归一化方法对其他的软件来说十分关键，不恰当的归一化往往会得到糟糕甚至是错误的结果，而且归一化原始数据耗时可观。而对于deDoc来说归一化是完全没有必要的，这使得分析速度大大加快。第二，deDoc的高精度预测能力对数据总量的依赖非常低。测试发现，甚至只要少于1%的Rao et al 2014 的1kb分辨率数据，就可以获得充分好的染色质结构的预测。

他们进一步测试了deDoc在单细胞数据中的功效，惊讶的发现，只要把低至十个单细胞Hi-C数据聚合在一起，就可以很清晰的鉴定到类似拓扑结构域的结构。这说明尽管对于单个细胞来说，我们仍然无法确切的知道是否真的存在TAD结构，但是我们可以肯定的说，这种域结构是非常关键的，以至于只需要少到十个细胞就能够涌现出域结构。这一事实对我们理解染色质结构在细胞群体中的构成是有帮助的。

最后，研究团队还发现可以用所谓的一维信息熵去确定任何一套Hi-C的最优分辨率大小，也就是binsize。在传统的方法中，人们是通过控制Hi-C连接矩阵中非零数元素的比例这一主观的方法来确定binsize。而利用信息熵，他们发现使得一维信息熵极小值的binsize，对于数据分析来说是最可靠的。这是第一个定量确定合适Hi-C分辨率的方法。由于deDoc的这两个重要特征，使得deDoc可以成为在大的人群队列以及针对极低量细胞样本进行三维基因组研究的重要工具。

参考论文：

1. Angsheng Li*, Xianchen Yin, Bingxiang Xu, Danyang Wang, Jimin Han, Yi Wei, Yun Deng, Ying Xiong and Zhihua Zhang* (2018) Decoding Topologically Associating Domains with Ultra-low resolution Hi-C Data by Graph Structural Entropy. Nature Communications 2018. Doi:10.1038/s41467-018-05691-7.

报名方式

长按识别下方二维码，点击“课程报名”，进入“开讲啦，一作！”，即可报名免费听课！

小贴士：未关注探基平台（GeneTV）的小伙伴，请关注后进入报名流程

“开讲啦，一作！”

第一作者讲师招募中···

如果您以第一作者或者通讯作者发表或即将发表与基因科技领域的技术、方法或应用相关的最新科研成果（期刊影响因子>5），欢迎与我们联系！“开讲啦，一作！”将为您提供最优质的展示平台！揭秘文章背后的故事，向同行取经，让科研事半功倍，“开讲啦，一作！”等您加入。

欢迎各位老师或同学将文章及研究简介发送至邮箱seq@seq.cn，与我们取得联系

本文由 SEQ.CN 作者：王迪发表，转载请注明来源！

关键词：3D基因组结构, deDoc, Hi-C数据, 低分辨率, 探基平台, 李昂生教授, 精准医疗, 表观组数据

探基

开讲啦，一作！国家杰青李昂生教授：如何从低分辨率Hi-C数据识别高分辨率3D基因组结构？

相关文章

Science重磅 | 23种癌症全基因组染色质可及性图谱成功绘制！ATAC-seq发明人又一力作

Nature：我国科学家完成小麦A基因组测序，成功绘制染色体精细图谱

Nature子刊 | Dana-Farber癌症研究所开发基于大型癌症基因组数据集的NLP模型，适用多种癌症类型

热评文章

最赞的文章