GSA和BIGD——填补我国生物信息资源服务的空白

戴胜科研 2017-03-01

Genomics, Proteomics and Bioinformatics期刊2017年第一期在线发表了一篇数据库相关论文“基因组序列归档库”（Genome Sequence Archive，简称GSA）[1]。作者来自中国科学院北京基因组研究所大数据中心（BIG Data Center, Beijing Institute of Genomics，简称BIGD），文中对他们开发的GSA平台作了简要介绍。该平台旨在收集、整合和发布国内外用户递交的原始序列数据。GSA项目是基因组所大数据中心正在进行的几个主要研究开发项目之一，该中心由近50位年轻的生物信息学研究开发人员组成。除GSA项目外，还开展了多项面向生物信息资源服务的课题 [2]。

最近半个多世纪以来，分子生物学取得了长足的进展。DNA双螺旋的发现、遗传密码的破解、中心法则的提出，为分子生物学研究奠定了坚实的理论基础。与此同时，费雷德里克·桑格（Frederick Sanger）等先后建立了蛋白质、tRNA和DNA序列测定方法，约翰·肯德鲁（John Kendrew）和马克斯·佩鲁茨（Max Perutz）解决了X-射线晶体衍射解析蛋白质三维空间结构的难题。这些开拓性的研究，为日后分子生物学数据积累提供了必不可少的技术储备。

蛋白质序列数据库

最早从事蛋白质序列收集的是美国国家生物医学研究基金会（National Biomedical Research Foundation，简称NBRF）的生物信息学先驱玛格蕾特·戴霍芙（Margaret Dayhoff）博士（https://en.wikipedia.org/wiki/Margaret_Oakley_Dayhoff）。1965年，她把当时能收集到的65个蛋白质信息编纂成册，并以《蛋白质序列和结构图册》（Atlas of protein sequence and structure）为名公开发表，并在以后的几年中不断更新再版。这就是国际上第一个蛋白质序列数据库“蛋白质信息资源”（Protein Information Resource，简称PIR）的雏形。基于收集到的蛋白质家族序列，戴霍芙构建了氨基酸替换计分矩阵PAM，至今仍广泛用于序列比对和数据库相似性搜索。PIR于1984年正式上线，用户可通过电话网络进行查询。两年后，瑞士日内瓦大学在读研究生埃姆斯·贝洛克（Amos Bairoch）开始对蛋白质序列进行人工注释（https://en.wikipedia.org/wiki/Amos_Bairoch），为每个序列条目添加功能和相关文献等信息，并在此基础上创建了著名的“瑞士蛋白质序列数据库”（Swiss-Prot）。

蛋白质结构数据库

第一个蛋白质结构数据库（Protein Data Bank，简称PDB）创建于1971年。与蛋白质序列数据库分别诞生于美国和欧洲不同，PDB的建立是欧美两国合作者共同努力的结果。1971年，英国剑桥晶体学数据中心（Crystallographic Data Center）和美国布鲁克海文国家实验室（Brookhaven National Laboratory）在《自然：新生物学》（Nature: New Biology）发布短讯，宣告该数据库系统开始运行 [3]。双方各自保存相同的数据文件，并免费向用户发布。1998年，美国结构生物信息学研究协作组（Research Collaboratory for Structural Bioinformatics，简称RSCB）成立，负责蛋白质结构数据库运行，称RSCB PDB。

核酸序列数据库

70年代末，由桑格等建立的DNA测序方法日趋成熟，核酸序列开始累积。欧美各国有识之士敏锐地意识到，大规模测序很快就会到来，建立核酸序列数据库的任务已经提上议事日程。1979年，美国能源部下属洛斯阿拉莫斯国家实验室（Los Alamos National Laboratory）沃特·高德（Walter Goad）领导的计算生物学研究组开始利用计算机收集核酸序列，并开发序列分析计算机软件，著名的序列局部比对Smith-Waterman 算法也因此应运而生。获美国国立健康研究院（National Institute of Health，简称NIH）以及科学基金会（National Science Foundation，简称 NSF）、能源部（Department of Energy，简称DOE)和国防部（Department of Defense，简称DOD）等部门资助，核酸序列数据库GenBank开始运行。就在同一年，位于德国海德堡的欧洲分子生物学实验室（European Molecular Biology Laboratory，简称EMBL）发布了欧洲版的核酸序列数据库EMBL-Bank（有时也简称EMBL）。

美国国家生物技术信息中心NCBI

八十年代中后期，核酸、蛋白质序列和蛋白质结构数据库已经积累了相当可观的数据，而基于中小型和微型计算机的序列和结构分析软件也不断涌现。与此同时，由美国科学基金会资助的为科研教育服务的计算机网络NSFNet也开始投入使用。1988年11月，由已故参议员克劳德·裴帕尔（Claude Pepper）提议，位于美国首都华盛顿北郊的美国国家生物技术信息中心（National Center for Biotechnology Information，简称NCBI）成立。NCBI隶属美国国家医学图书馆（National Library of Medicine，简称NLM），而NLM则是NIH的一个下属机构。NCBI成立初期，仅8名人员，经过近30年的建设，NCBI已发展成国际上最大的生物信息中心，著名的数据库搜索软件BLAST主要开发者之一大卫·李普曼（David Lipman）担任主任至今。NCBI拥有上百个数据库和软件工具，包括著名的生物医学文献摘要数据库PubMed、参考序列数据库RefSeq、数据库相似性搜索软件BLAST等。1989年，核酸序列数据库GenBank也由NCBI接管。

欧洲生物信息学研究所EBI

欧洲生物信息学研究所成立于1994年，坐落在英国剑桥南部12英里维康基金会（Wellcome Trust）基因组园区内。EBI是EMBL的一个下属单位，主要经费来自欧盟，研究人员主要来自西欧各国。经过20多年的建设，EBI已经成为仅次于NCBI的国际生物信息中心，为欧洲各国和世界各地用户提供生物信息资源服务，并从事生物信息研究开发。除核酸序列数据库EMBL外，EBI还有许多特色数据库，如基因组数据库ENSEMBL、蛋白质家族和结构域数据库InterPro、基因本体数据库Gene Ontology等。

三大国际数据库联盟

由美国政府部门资助的国家级生物信息中心NCBI和由欧盟资助的生物信息机构EBI的成立，为生物信息资源服务提供了人员和经费保障，促成了国际数据库联盟的建立。2003年，EBI的蛋白质结构数据库PDBe，日本蛋白质结构数据库PDBj和美国蛋白质结构数据库RSCB PDB共同组成国际蛋白质结构数据库联盟wwPDB（http://www.wwpdb.org/）。2005年，NCBI、EBI和1987年成立的日本核酸序列数据库DDBJ达成协议，建立国际核酸序列数据库联盟（International Nucleotide Sequence Database Collaboration，简称INSDC，http://www.insdc.org/）。同年，EBI的TrEMBL与Swiss-Prot和PIR一起，组成了国际上统一的蛋白质序列数据库UniProt（http://www.uniprot.org/）。其中，TrEMBL是核酸序列数据库EMBL中的编码区翻译所得的蛋白质序列。

互联网诞生和大数据时代到来

20世纪90年代诞生的国际互连网，标志着信息时代的到来。正如诺贝尔奖获得者沃特·吉尔伯特（Walter Gilbert）于1991年1月发表在Nature上的卓有远见的文章中指出的那样，“我们必须把各自的个人电脑接入全球互联网，以便充分利用日新月异的数据库资源，并通过网络进行直接交流”[4]。他明确指出，生命科学研究面临着一个模式的改变。十年后的2001年2月，由政府资助的人类基因组计划（Human Genome Project，简称HGP）[5] 协作组和美国Celera公司 [6] 分别发布了人类基因组草图，标志着基因组学研究进入了一个新阶段。得益于高通量、低成本的新一代测序技术的快速发展，数以万计的基因组和宏基因组已经测定。根据基因组在线数据库的统计数据，265,734个不同个体的基因组测序已经完成或正在进行（GOLD, https://gold.jgi.doe.gov/）[7]。毋庸置疑，大数据革命将在未来几年中极大地影响分子生物学研究，而数据收集和发布是必不可少的重要步骤 [8]。

GSA项目和基因组所大数据中心BIGD

近三十年来，尽管我国生物信息学研究开发取得了一定成绩 [9]，但在生物信息资源建设方面，却几乎还是空白。历史是最好的镜子，上述历史回顾告诉我们，在提供生物信息资源服务方面，我国已远远落后于欧美各国；三大国际数据库联盟中，根本就没有中国的踪影。为应对即将到来的大数据浪潮，建立国家级的生物信息资源和服务体系势在必行。遗憾的是，过去十多年来，尽管郝柏林院士等国内许多有识之士大声疾呼，我国的国家级生物信息中心依然渺无音讯（http://blog.sciencenet.cn/blog-1248-237322.html）。

值得庆幸的是，由中国科学院北京基因组研究所大数据中心BIGD开发的“基因组序列归档系统”GSA项目已经启动。自2015年12月上线以来，国内39个研究机构近200个研究课题已经把他们的数据汇交到GSA平台。更加令人欣喜的是，该系统也得到了国际上的认可，美国科学院院报PNAS等多个期刊已经发表了汇交到GSA的学术论文。GSA系统只是该大数据中心BIGD的主要项目之一 [2]，数据库构建、基因组变异图谱等其它多个项目也已经开始，其特色数据库涵盖了基因组、转录组、甲基化组等各个方面，而若干重要动植物的基因组变异数据库也已经上线。此外，国际生物信息数据库目录（Database Common）、水稻信息资源维基（RiceWiki）等也是该中心开发的特色平台。

在国际合作方面，BIGD也已经迈出了重要的一步。2016年年底，BIGD举办生物信息大数据讨论会，NCBI和欧洲分子生物学网络组织（European Molecular Biology Network，简称EMBNet，http://www.embnet.org/) 等机构的学者应邀参加，与中心成员交流生物信息研究、开发、服务的经验。此外，中心聘请了NCBI、EBI、DDBJ等国际著名生物信息中心的资深人士担任科学顾问，并于2017年春节前召开了第一届国际科学顾问委员会会议。

当然，BIGD还刚刚建立，需要得到政府部门的资助和用户群体的支持，才能不断发展壮大，为建立我国国家级的生物信息中心奠定基础。值得深思的是，BIGD从事的公益性、服务性的工作，在目前国内“以学术论文论英雄、以影响因子排座次”的评价体系下，很难得到足够重视，希望BIGD近50位年轻的生物信息研究开发人员要有“板凳坐得十年冷”的思想准备。在此，借用英国学者Alan Bleasby的话，聊以共勉：“I don’t think we can get a Nobel prize by what we are doing so, but the Nobel prize winners know what we are doing for”。

参考文献：

[1] Wang Y, Song F, Zhu J, Zhang S, Yang Y, Chen T, et al. GSA: Genome Sequence Archive Genomics Proteomics Bioinformatics 2017; http://dx.doi.org/10.1016/j.gpb.2017.01.001.

[2] BIG Data Center Members. The BIG Data Center: from deposition to integration to translation. Nucleic Acids Res 2017;45:D18–24.

[3] Berman HM, Kleywegt GJ, Nakamura H, Markley JL. The Protein Data Bank at 40: reflecting on the past to prepare for the future. Structure 2012;20:391–6.

[4] Gilbert W. Towards a paradigm shift in biology. Nature 1991;3496:99.

[5] Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature 2001;409:860–921.

[6] Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, et al. The sequence of the human genome. Science 2001;291:1304–51.

[7] Mukherjee S, Stamatis D, Bertsch J, Ovchinnikova G, Verezemska O, Isbandi M, et al. Genomes OnLine Database (GOLD) v.6: data updates and feature enhancements. Nucleic Acids Res 2017;45:D446–56.

[8] Toronto International Data Release Workshop Authors. Prepublication data sharing. Nature 2009;461:168–70.

[9] Wei L, Yu J. Bioinformatics in China: a personal perspective. PLoS Comp Biol 2008;4:e1000020.

文章编译来源：Jingchu Luo. GSA and BIGD: filling the gap of bioinformatics resource and service in China. Genomics Proteomics Bioinformatics 2017;15(1).

来源：中国科学院北京基因组研究所/罗静初

本文由来源中国科学院北京基因组研究所/罗静初，由戴胜整理编辑！

科研