思考

测序周报·资讯篇:超级计算是基因组学研究的未来

本周关注:诺奖得主《PNAS》公布最新测序技术:重新定义DNA修复

我们身体细胞内的DNA每日都会由于各种原因而受损,因此可以说细胞间DNA修复系统是维持生命的基础,但是对于这个基础机制科学家们并没有完全弄明白。近期来自北卡罗来纳州大学教堂山分校的研究人员利用先进的测序技术,分析澄清了这些修复系统中的关键分子细节,发现了核苷酸切除修复的奥秘。

这一研究成果公布在2月6日的PNAS杂志上,文章的通讯作者之一是2015年诺贝尔化学奖得主之一Aziz Sancar教授,Sancar教授生于土耳其萨武尔,主要从事DNA修复、细胞周期检查点、生物钟方面的研究。他获得诺贝尔奖的原因也就是DNA修复研究:他曾花费大量时间分析光解和光激活的机制,对这些机制的探索已有近20年时间,直接观察到了光解酶修复胸腺嘧啶二聚体的过程。

为了研究细胞中的切除修复,Sancar等人研发出了一种新技术:XR-seq,XR-seq能帮助研究人员分离和测序切除修复过程中从基因组剪切下来的小片段加合物损伤(adduct-damaged)DNA。了解俄这些DNA片段的序列,将有助于更精确的定位它们在基因组中的位置。

采用这种方法,研究人员于2015年首次构建出了人类基因组的UV修复图,并于2016年生成了抗癌顺铂药物对整个人类基因组的损伤和修复图谱。现在他们又利用XR-seq技术回答了关于大肠杆菌中损伤修复的一些基础性问题,这将有助于研发新型抗生素药物。

Mfd

在这项研究中,研究人员发现一种蛋白:Mfd在细菌的切除修复中扮演了独特的重要作用。

文章作者之一Christopher P. Selby博士表示,“我认为Mfd是大肠杆菌中最有趣的蛋白”。因为当一个细菌基因的DNA被转录成RNA,转录分子机制会被卡在一个庞大的加合物上,此时Mfd就会出现,招募其它修复蛋白,修复DNA损伤部分。这种由Mfd引导的过程被称为转录偶联修复(transcription-coupled repair,生物通译),这种修复在活性转录的DNA链上具有更高的修复速率。

研究人员利用XR-seq方法来分析大肠杆菌细菌细胞中UV诱导的损伤,发现了正常细胞中转录偶联修复的明确证据,但在缺失Mfd的细胞中无法进行这种修复,这证实了Mfd的这一过程中的关键作用。

UvrD

在进一步的实验中,研究人员又发现另外一个切除修复蛋白:UvrD在大肠杆菌中帮助清除受损DNA切除片段的新作用。

如果缺失UvrD,切下的DNA片段就会仍然与染色体DNA结合,使得细胞废物处理酶难以将其切碎降解。同时切除该链的修复蛋白也会绑定在上面,接着切除受损DNA的其它位点。UvrD的工作就是从染色体DNA中解开这些损坏和丢弃的DNA片段,以便可以快速进入下一步处理,相关的修复蛋白也可以继续进行新一轮的修复。

下一步研究人员计划在细菌细胞,人类和其他哺乳动物细胞中利用XR-seq技术解析切除修复的详细过程。

来源:生物通/张迪

本周科研进展

1. 本周《自然-生态与演化》在线发表的论文展示了猪笼草的一种——澳大利亚土瓶草的全基因组序列,通过比较食肉叶子(其中含有可以令其消化动物猎物的液体)和非食肉叶子的全基因组表达模式,揭示了食肉植物一些独特的适应行为,如吸引猎物、捕获和消化。他们发现,在其它植物中与应激反应相关的基因在食肉植物中发生功能转变,其作用相当于消化性液蛋白。

2. 癌症基因英国研究人员日前在美国《基因组研究》杂志上表示,研究人员利用大数据技术分析了大量图片以及超过2.8万个基因的数据,绘制了可清晰展示乳腺癌细胞形态与基因之间关系的图谱,未来有望帮助医生更准确地选择治疗方案,提升治疗乳腺癌的效果。

3. 2月7日,来自斯坦福大学的最新研究显示,新被确诊的乳腺癌患者对遗传检测和咨询的需求超过了可用的服务,妇女对基因检测非常感兴趣,但许多人得不到检测,这意味着医生缺少机会来预防突变携带者及其家庭成员患癌症。

4. 日前来自美国翻译基因组学研究院的研究人员通过研究鉴别出了能够引发儿童机体异常和发育迟缓的基因突变,该突变能够影响名为CASK蛋白的表达,而该蛋白对于儿童大脑发育以及大脑神经元之间的信号传递非常关键。

5. 近日美国斯坦福大学医学院的研究人员开发出一种极其廉价并可重复使用的诊断用 “芯片实验室” 技术,生产成本仅为 1 美分,与低成本测序技术一样,这一技术或会给医疗诊断领域带来一场新革命。

6. 一个国际美国临床病理学会、病理学家学会、分子病理学会和临床肿瘤学会联合发布了一项结直肠癌患者分子检测的新指南,以改善患者的预后,该指南近日在线发表在《Journal of Molecular Diagnostics》上。

7. 西北农林科美国Whitehead研究所和Broad研究所的研究人员在14例急性髓系白血病细胞系中,成功鉴定了癌细胞增殖和生存必须的重要基因。结合必要性基因的图谱和已存在的基因组信息,他们的研究显示通过基因定义的癌症亚分类情况可以用于开发新的疗法。

8. 本周《自然》在线刊载的研究The genome of Chenopodium quinoa发表了首个藜麦高质量参照基因组。这项新成果将促进藜麦的遗传改良和育种策略,有望提高全球粮食安全。

新发表文章

新技术

CPSS 2.0: a computational platform update for the analysis of small RNA sequencing data. Wan C et al. Bioinformatics. 2017 Feb 8.

动物

Dynamics of genome size evolution in birds and mammals. Kapusta A et al.Proc Natl Acad Sci U S A. 2017 Feb 8.

The Evolution and Genetics of Carotenoid Processing in Animals. Toews DP et al. Trends Genet. 2017 Feb 4.

miR-450a-5p within rat adipose tissue exosome-like vesicles promotes adipogenic differentiation by targeting WISP2. Zhang Y et al. J Cell Sci. 2017 Feb 6.

植物

High throughput mining of E-genome specific SNPs for characterizing Thinopyrum elongatum introgressions in common wheat. Lou H et al. Mol Ecol Resour. 2017 Feb 9.

Functional outcomes of fungal community shifts driven by tree genotype and spatial-temporal factors in Mediterranean pine forests. Pérez-Izquierdo L et al. Environ Microbiol. 2017 Feb 9.

Integrating Small RNA Sequencing with QTL Mapping for Identification of miRNAs and Their Target Genes Associated with Heat Tolerance at the Flowering Stage in Rice. Liu Q et al. Front Plant Sci. 2017 Jan 24.

微生物

Response of Microbial Communities to Roxarsone under Different Culture Conditions. Liu Y et al. Can J Microbiol. 2017 Jan 20.

Effects of several in-feed antibiotic combinations on the abundance and diversity of fecal microbes in weaned pigs. Li H et al. Can J Microbiol. 2017 Jan 24.

 本周关注:超级计算是基因组学研究的未来

如今,数据洪流正以非常深刻的方式影响着基因组学和其他生命科学领域的科学家及研究人员。原因有二,其一,随着越来越多数据源的加入,研究人员开始无法管理收集到的如雪崩一样的数据;其二,研究人员缺乏快速计算数据的能力以及将数据转化为有价值的科学见解的能力。

目前,基因组学正处于这样一个拐点:人类基因组测序的成本已经低于1000美元,预计仍将继续下降(相比2003年的30亿美元)。随着测序成本降低,基因检测变得越来越普遍,相应的基因组数据也不断上升。仅单个人的基因组“运行”就会产生0.5TB(1TB=1024GB)的原始数据图像文件,这些文件都很复杂,包含了分散的、非结构化的科学数据,难以管理和分析。

随着测序技术的发展,研究人员面临的挑战是如何管理和分析这些大量的、非结构化的基因组数据。通常,这些数据产生于全球各地的学术研究、临床试验和制药研究。现在许多组织机构都需要更高级的数据分析和管理,应用于药物研发、疾病基因检测以及在临床应用中创建个性化治疗等。但基因组测序是一个复杂多步的过程,包括了DNA序列读取、基因组序列拼接、变异区序列分析和重测序。

现实就是:过去十年间,我们使用的技术不够强大,无法分析这些关键数据。这样的技术在未来注定要被新技术取代,因为随着基因测序公司的不断创新发展,他们对数据分析的需求在更快地增长中。同时,人们的对基因组测序的需求也越来越高。

因此,技术专家要做的就是让这些数据可以通过复杂的高性能计算(HPC)或超级计算机和大数据技术来分析,从而使基因组数据的管理和分析更便捷有效。

大数据自身的问题

追求个性化医疗的同时产生了爆炸性的数据增长,因为医生和研究人员希望通过基因测序的手段,基于患者的疾病表现和对药物的耐受性等,对不同的患者进行最佳的个性化治疗。与此同时,随着基因组学研究的资金不断增加,基因测序越来越商业化,也进一步推动了个性化医疗的发展。

相关的案例就是,Kaiser Permanente在全美收集超过210000名患者的DNA样本、医疗记录等,随后创建了全球最大、最全面的精准医疗数据库。在此基础上,研究人员希望从中找到影响各类遗传疾病的特定基因,以此在临床应用中改善疾病的诊断、治疗和预防。

当然,要想成功梳理这些复杂、散点化、非结构化的科学数据,研究人员需要能大量计算和高速分析数据以及具有灵活性的计算系统,但是传统的计算系统跟不上数据需求的发展脚步。

可喜的是,随着现代超级计算技术的到位,研究机构可以不断增加数据量,并分析出有价值的科学见解。

管理和共享新数据

要想在数据密集的时代里实现重大科学突破,研究团队需要更快、更便捷地对大型数据集进行分析。2016年,美国著名健康系统INOVA的转化医学研究所(ITMI)购买了HPC系统,使得研究人员能借助基因组数据库,更加准确、快速地诊断患者,并提供更高水平地治疗和护理。

ITMI的系统用于25000个基因组的数据密集型工作负载,研究人员通过开发和使用自己的代码简化数据管理。有了这种灵活性,ITMI管理IT的负担明显降低,同时也增加了研究工作流的能力,使机构能投入更多的资源用于更具挑战性的慢性疾病领域。

随着科研机构处理数据越来越多,未来资本还将青睐新的超级计算解决方案,以改善数据的管理和可访问性。具体来讲,这些系统将提供更高速的工作流以及更快的组编和分析操作,为研究人员的研究提高效率。相对来讲,HPC系统查询海量数据库的速度要快一个数量级,能探索更大的数据集,并能同时进行更多数据的调查。

为什么数据存储至关重要

基因组学研究中最大的挑战就是数据集往往需要被存储、分析,然后再次存储。举例来说,美国基因检测公司Human Longevity最近与制药企业AstraZeneca合作,对来自临床试验的500000个DNA样本进行测序分析。该计划预计将在2020年前生成一百万种基因组、分子和临床数据的综合健康记录。这将是一个惊人的数据量,所有的数据都必须存储在外部储存器,以便将来通过网络传送到计算机,分析后再存储回外部储存器。

这个过程给传统的IT基础设施带来了难以置信的负担。大多数存储管理器并不能承受这些工作负载带来的压力,因为其不具有当今生物医学应用所需的可扩展性、持续性和长期性,

超级计算机的现代

基因组学研究的数据将继续爆炸性增长。随着技术人员提供千兆级和未来百万兆级的解决方案,几年前还让人觉得高深莫测的数据,如今都能快速便捷的管理和分析。此外值得高兴的是,超级计算系统已经变得更加经济实惠,也没有那么复杂了。

超级计算机在基因组学中具有多种功能,包括协助组编和识别研究数据中的模式,以及将遗传序列注释到图像建模中。

对于研究机构来说,寻找现代HPC的解决方案非常重要,因为它不仅可以分析数据,而且能轻松存储数据,同时其他研究人员还能再次访问。美国硅图公司(SGI)提供的存储系统,可以轻松集成高性能计算和数据分析系统功能。

现代HPC系统提供大规模的、存储虚拟化的数据管理平台,专门用于管理生命科学应用程序产生的大量结构化和非结构化的内容。在这场收集、研究、链接和分析与个性化医疗环境相关的关键生物医学研究数据的竞赛中,SGI为研究机构和实验室的分析和创新提供了一条捷径。

结语

基因组学研究将促进疾病基因的识别,加速生物标志物的鉴定,并为患者提供针对性更强的个性化治疗。同时基因组学的研究人员也面临挑战,他们要开展新的高质量的研究为临床医生制定个性化的药物治疗提供依据,并通过基因组测序和干细胞研究治疗癌症及其他疾病。HPC系统处于领先的地位使得一些研究机构能在生命科学领域取得突破性进展。

来源:火石创造;编译:木易

原作者:Gabriel Broner

国外资讯

1. 单分子测序公司Pacific Biosciences于上周四收市后宣布了2016年第四季度的财务业绩。在第四季度的收入为2570万美元,低于去年同期的3630万美元,但高于分析师普遍预计的2310万美元。在2015年第四季度,PacBio收到了罗氏2000万美元的一次性里程碑付款。

2. 日前,麻省理工学院(MIT)理学院宣布晋升五位副教授为终身教授,其中包括年仅34岁的著名华人生命科学家张锋。张锋最著名的工作是基因修饰技术CRISPR-Cas9的发展和应用。他为此率先获得了美国专利,并被视为诺贝尔奖的热门人选之一。

3. 据外媒nationalviral.com报道,英国伦敦一家叫做Meantime的酿酒厂开始提供一项基于消费者DNA的个性化定制啤酒的服务。Meantime酿酒厂跟23andMe合作,消费者可以提供口腔唾液样本,给23andMe科学家进行基因检测,主要分析消费者的口腔味觉感受器(TAS2R38基因)对丙基硫氧嘧啶的敏感度,据此,Meantime酿酒厂就可以制造对消费者而言最个性化的啤酒了,价格是25000英镑。

国内资讯

1. 2017年2月9日最新资讯,臻和(北京)科技有限公司在2017年初获得B轮1.28亿元融资,领投方为清控银杏,跟投方为正心谷创新资本、凯风创投、雅惠精准医疗基金、泽厚资本等。臻和科技注册成立于2014年11月,主要基于高通量测序技术平台,提供循环肿瘤DNA检测,从事无创肿瘤个体化精准诊疗、伴随诊断及病程中肿瘤突变负荷监测。

2. DNA Genotek 于2月7日宣布,已经与中国的个人基因组服务公司 WeGene 签订了多年的产品供应合同。加拿大 DNA Genotek 是一家全球领先的样本采集工具供应商,服务范围包括个人基因组、微生物组和传染性疾病等。WeGene 是中国的个人基因组服务供应商,为消费者提供基因检测和个性化健康服务,WeGene 用户会使用 DNA Genotek 的OrageneŸDNA 采样管来收取唾液样本,以供 DNA 检测分析。

3. 深圳市瀚海基因生物科技有限公司是国内三代单分子测序仪研发制造企业,公司研发的单分子测序系统GenoCare主要针对临床应用。近日瀚海基因自主研发的通用测序试剂盒顺利完成第一类医疗器械备案并审核通过,成为首个通过中国医疗器械注册备案的三代单分子测序系统试剂盒,为瀚海基因在未来临床应用市场的发展创立了良好的开端。

Comparison of rumen bacteria distribution in original rumen digesta, rumen liquid and solid fractions in lactating Holstein cows. Ji S et al. J Anim Sci Biotechnol. 2017 Feb 1

Genome-wide transcription-coupled repair in Escherichia coli is mediated by the Mfd translocase. Adebali O et al. Proc Natl Acad Sci U S A. 2017 Feb 6.

肿瘤

Upregulated WEE1 protects endothelial cells of colorectal cancer liver metastases. Webster PJ et al. Oncotarget. 2017 Feb 2.

Extrachromosomal oncogene amplification drives tumour evolution and genetic heterogeneity. Turner KM et al. Nature. 2017 Feb 8.

Whole-genome sequencing identifies new genetic alterations in meningiomas. Tang M et al. Oncotarget. 2017 Feb 3.

其他

Dpath software reveals hierarchical haemato-endothelial lineages of Etv2 progenitors based on single-cell transcriptome analysis. Gong W et al. Nat Commun. 2017 Feb 9.

Biogenesis and Function of Ago-Associated RNAs. Daugaard I et al. Trends Genet. 2017 Feb 4.

(0)

本文由 测序中国 作者:白云 发表,转载请注明来源!

热评文章