最新Nature研究 | 宫颈癌综合分析发现新的突变和治疗靶点

分析蛋白家族的结构是一个巨大的工程

仅仅根据基因序列是不可能知道蛋白质如何折叠的。可能的结构是天文数字，尽管计算生物学家在缩小可能性方面取得了进展。几十年的实验和计算工作表明，氨基酸更倾向于彼此依偎，并保持在一个臂的长度。这有助于研究人员计算最稳定的折叠模式，但主要是相对较小的蛋白质。但对于较大的蛋白，变量的数量使得计算非常棘手。

基因序列中的共进化对会有助于蛋白结构分析

在上世纪90年代，哈佛大学的计算生物学家Chris Sander，表明基因序列数据可以有所帮助。Sander推断当蛋白质折叠时，在二维上相当遥远的氨基酸对可能在三维折叠的蛋白质上是相邻的，这提供了让蛋白质来保持其形状的关键相互作用。如果基因突变导致这些氨基酸中的一种改变，它可以破坏这种相互作用，使蛋白质失去作用，并可能杀死有机体。但在极少数情况下，基因突变可能同时改变两种关键氨基酸，保持它们之间的相互作用，使蛋白质能够继续发挥作用。进化将有利于这种串联的突变，导致氨基酸的伙伴共同进化。

共进化对的示意图

Sander建议要找到这些共同进化对，要查看的不只是一个单一的生物蛋白基因序列，而是很多。生物体从细菌到人类共享许多密切相关的蛋白质。通过比较这些共享蛋白的基因序列，研究人员可以定位这些共同进化的DNA片段。任何这样氨基酸对的代码，很可能作为一个三维结构的近邻，就是需要改善计算机折叠算法的约束类型。

Rosetta结构预测运用宏基因组数据

这个方法叫做Rosetta结构预测，通过进化信息来预测残基之间的接触。这种方法能对属于大型家族的蛋白建模，比蛋白家族数多三倍的充足宏基因组数据能够准确地建模。几年前由Sander 和 David Baker领导的华盛顿大学的生物化学家的工作，表明了这个想法能够起作用。到目前为止，照这个方法确定了几十种蛋白质的结构，Baker解释说：“限制的事情是得到更多的序列数据。”

Baker在这个方法上加大了力度，根据发表在Science上的报道他们已经采用宏基因组测序技术结合使用的技术，通过筛选的序列数据，他们能够追踪足够的共进化的氨基酸来确定614个蛋白的结构，每一个代表未发现结构的一个完整家族的蛋白。206个是膜蛋白，137个折叠的蛋白没有在蛋白数据库中有代表。使用这些结构的模板，计算生物学家应该能够模拟成千上万的相关家族的结构。这种方法为大型蛋白家族提供了代表性模型，开创了以小成本获得蛋白结构的想法。

参考资料：

Hundreds of elusive protein structure spinned down from genome data

Protein structure determination using metagenome sequence data

Seeking structure with metagenome sequences

来源：生物探索

本文由 SEQ.CN 作者：陈初夏发表，转载请注明来源！

科研