美国将创建统一的公有云端基因组数据平台dbGap

2015-07-16 译者/刘旭坤 审校/朱正贵 CSDN

  基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一 今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。 云计算服务通过按需付费模式提供海量的存储和计算资源。使用云服务要通过互联网

 

基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一

今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。

云计算服务通过按需付费模式提供海量的存储和计算资源。使用云服务要通过互联网,而且计算资源是共享的,这就引起了很多科研资助机构的疑虑,他们担心云计算的使用会泄露样本提供者的隐私。NIH取消不准上传到云端的规定是因为基因组学研究中正面临着现实问题:如何获取数据库中的大量数据。这已经阻碍了科研人员的工作,尤其是当研究工作涉及到现有的数据信息时。

为了充分利用云计算技术所提供的便利,我们敦促NIH和其他科研资助机构在常用的云平台中免费提供基因组数据。这样全球数以千计的科研人员就不用浪费自己的时间和金钱将数据转移到自己熟悉的云平台,只要从这个统一的数据平台进行存储和分析就可以了。

大数据

随着基因组排序技术的提高,大型基因数据库中的信息都是以PB计的(1PB=10^15字节)。比如国际癌症基因组联盟ICGC的数据库中不到五年时间就积累了从17个国家收集而来的超过2PB数据,这相当于50万张DVD的容量。

按一般大学的网速来算,将这些数据转移到研究人员自己的内部网络中需要花超过15个月。先不说处理,就单单存储这些数据的硬件就要花大概100万美元。

云计算为我们提供了计算资源上的弹性,研究人员可以需要多少计算资源就有多少计算资源。分析完成之后只需要为计算分析的一小段时间付费。科研人员之间也可以更好地进行分工合作,在虚拟机上就能轻松地分享数据和计算方法。以前要花上几个月的基因组数据分析现在可能只需要几天或者几周。(见下图)


时至今日,云服务的安全性已经胜过了研究机构自己的数据中心。提供云服务的既有亚马逊、谷歌和微软这样的商业企业,也有专注于基因组研究的小型公司,比如加利福尼亚的Annai Systems和英国剑桥郡的欧洲生物信息研究所。这些提供商采取加密和防火墙或密保卡等方式来控制数据的使用权,并为数据所有者提供监测数据使用的工具。

一些人类基因组学的主要资助机构还是对云计算持谨慎态度。如一些欧洲的资助机构就建议将基因组数据控制在自己的管辖范围内以遵守欧洲的隐私法律。但我们预计,基于云计算的经济性、灵活性、可靠性和安全性,未来几个月肯定会有向云平台的大规模迁移潮。NIH的决定无疑会加速这一过程,我们在此对NIH表示感谢。

现在让我们来看看如何在云平台用最少的花销达到最高的效率。

 

访问控制

科研人员想要从dbGAP等数据库中取得人类基因组数据,必须要经过数据访问委员会的批准。现在如果有不同的科研人员想要在云平台上使用同一数据集,他们各自必须得到相应的数据访问委员会批准。然后要将数据复制到自己的云平台才能开始工作。

所有这些科研人员都必须等着数据复制,也必须向自己使用的云平台支付费用。如果100组科研人员都这么做,那么这个过程很明显浪费了科研人员很多的时间和金钱。就算是可以随便把数据复制到自己的云平台,大多数科研人员恐怕也负担不起这一过程需要的时间和花销。

有一个更好的方式可以解决这个问题:相关的资助机构可以要求将主要的基因组数据集上传到常用的云平台中并支付存储的费用,这样所有数据只需要复制一次而且科研人员自己只需要支付进行分析时的一点点开销。

现在不少云计算提供商为科研数据提供极低价格的存储甚至完全免费以鼓励科研人员使用自家的云服务。亚马逊AWS为***基因组计划提供免费存储(有超过200TB数据),Annai Systems也为一部分ICGC数据集提供免费存储。

假设迁移到云平台之后现在的数据库提供者和数据访问委员会的设置保持不变的话,在基因组云计算的范围内甚至可能诞生一个市场。比如提供了有价值数据的基因生物学家可以获得云计算平台的分析时间作为奖励。计算机科学家如果提供了可以提高分析效率的程序,也可以在别人运行它的程序时得到一定的回报。

经过一段时间这便会形成一个良性循环。这些大的数据集融合在一起可以令科研人员更快发现基因与疾病之间的联系,这反过来会鼓励更多人分享数据集或开发更强大的软件。

这种方式也有一定的风险。如果把所有数据都集中到同一个云计算平台,此云计算平台就会因为垄断而提价,而这些成本就会转嫁到科研经费中。为了避免这种情况发生,应该将重要的数据集放在多个云平台上。这也可以解决之前提到的欧洲资助机构的担忧,只要将欧洲所贡献的数据限制在欧洲的云服务提供商即可。

基因组学标准

当然要达到我们最终的目的还需要很多技术和法律方面的努力。比如现在囊性纤维变性研究人员完全不能通过软件在dbGap数据库中搜索病患的基因序列。通过系统性地进行数据标记,例如样本的来源将有助于解决这个问题。从2001年开始,期刊发行商们达成了一个共识:只接受符合MIAME标准的RNA微阵列研究。对于基因组数据,我们也需要一个类似MIAME的标准。

保护云平台之上的敏感数据需要可靠的协议以及赋予和解除权限的手段。短期内各个项目的数据访问委员会仍应对数据的访问进行把关,但最终保留几个可以掌控云端所有数据库的访问委员会将会是更好的方案。

在法律层面则必须划分清楚资助机构、数据监管部门、云服务提供商以及使用基因组数据的科研人员各自的角色和责任。比如说有人在微博上发基因组的信息,这几个角色中谁应该负责任?为了解决这一问题,全球基因组学与健康联盟已经制定了一个共享基因组及健康相关数据的责任框架。

与此同时,NIH以及其他资助机构在借基因组学的点子在讨论其他公共平台的可能性。NIH下属的国立癌症研究所已经开展了几个在云平台进行基因组学数据的共享和分析的实验项目。

神经学和流行病学这样的学科与基因组学一样面临着数据方面的问题。如果能正确地使用云计算,不光基因组学,连这些学科的研究人员也将能够受益。

英文原文:Data analysis: Create a cloud commons

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (3)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=32965, encodeId=299832965b9, content=挺好的, beContent=null, objectType=article, channel=null, level=null, likeNumber=96, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=3b2c1627329, createdName=owlhealth, createdTime=Fri Jul 17 07:34:00 CST 2015, time=2015-07-17, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=32931, encodeId=955232931f1, content=老美, beContent=null, objectType=article, channel=null, level=null, likeNumber=104, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=http://cacheapi.medsci.cn/resource/upload/20150707/IMG559BDBCBCA5618647.jpg, createdBy=494c1631012, createdName=文刀, createdTime=Thu Jul 16 21:42:00 CST 2015, time=2015-07-16, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=32887, encodeId=b1613288e0a, content=美国人总是走在前面,我们国内,不是技术的差距,而是思想的差距, beContent=null, objectType=article, channel=null, level=null, likeNumber=94, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=96871613250, createdName=medcardio, createdTime=Thu Jul 16 16:05:00 CST 2015, time=2015-07-16, status=1, ipAttribution=)]
    2015-07-17 owlhealth

    挺好的

    0

  2. [GetPortalCommentsPageByObjectIdResponse(id=32965, encodeId=299832965b9, content=挺好的, beContent=null, objectType=article, channel=null, level=null, likeNumber=96, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=3b2c1627329, createdName=owlhealth, createdTime=Fri Jul 17 07:34:00 CST 2015, time=2015-07-17, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=32931, encodeId=955232931f1, content=老美, beContent=null, objectType=article, channel=null, level=null, likeNumber=104, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=http://cacheapi.medsci.cn/resource/upload/20150707/IMG559BDBCBCA5618647.jpg, createdBy=494c1631012, createdName=文刀, createdTime=Thu Jul 16 21:42:00 CST 2015, time=2015-07-16, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=32887, encodeId=b1613288e0a, content=美国人总是走在前面,我们国内,不是技术的差距,而是思想的差距, beContent=null, objectType=article, channel=null, level=null, likeNumber=94, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=96871613250, createdName=medcardio, createdTime=Thu Jul 16 16:05:00 CST 2015, time=2015-07-16, status=1, ipAttribution=)]
    2015-07-16 文刀

    老美

    0

  3. [GetPortalCommentsPageByObjectIdResponse(id=32965, encodeId=299832965b9, content=挺好的, beContent=null, objectType=article, channel=null, level=null, likeNumber=96, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=3b2c1627329, createdName=owlhealth, createdTime=Fri Jul 17 07:34:00 CST 2015, time=2015-07-17, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=32931, encodeId=955232931f1, content=老美, beContent=null, objectType=article, channel=null, level=null, likeNumber=104, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=http://cacheapi.medsci.cn/resource/upload/20150707/IMG559BDBCBCA5618647.jpg, createdBy=494c1631012, createdName=文刀, createdTime=Thu Jul 16 21:42:00 CST 2015, time=2015-07-16, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=32887, encodeId=b1613288e0a, content=美国人总是走在前面,我们国内,不是技术的差距,而是思想的差距, beContent=null, objectType=article, channel=null, level=null, likeNumber=94, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=96871613250, createdName=medcardio, createdTime=Thu Jul 16 16:05:00 CST 2015, time=2015-07-16, status=1, ipAttribution=)]
    2015-07-16 medcardio

    美国人总是走在前面,我们国内,不是技术的差距,而是思想的差距

    0

相关资讯

Nature:基因组与临床数据整合,推动癌症领域精准医疗

《自然》(Nature)杂志日前发表文章称,要想把靶向疗法用于更多患者,需要将基因组数据与临床数据相整合,让这些信息能够被广泛接入。10个月前,来自新泽西的一位76岁尿道癌晚期患者的医生们决定为她尝试一种非传统疗法。几周前,他们把这位患者的肿瘤样本发给威尔康奈尔医学院(Weill Cornell Medical College)精准医疗研究所。基因测序数据显示,她拥有比正常人更多的HER2基因

精准药物开发面临哪些真实的困境?

《自然》(Nature)杂志英文版日前发表文章称,要想把靶向疗法用于更多患者,需要将基因组数据与临床数据相整合,让这些信息能够被广泛接入。 10个月前,来自新泽西的一位76岁尿道癌晚期患者的医生们决定为她尝试一种非传统疗法。几周前,他们把这位患者的肿瘤样本发给威尔康奈尔医学院(Weill Cornell Medical College)精准药物(Precision Medicine)研究所。

来看看一组有关慢病的可怕的数据!

1、先看2003年~2013年这十年的糖尿病发病率变化 从这张图种我们可以看到,十年间中国糖尿病的平均发病率增长了近7倍,其中城市人口的发病率增长了近3倍,而农村人口增长了10倍之多。可以看出未来农村会成为慢病的重灾区,这和十年间农村人口的饮食和生活习惯改变有巨大的关系。 2、十年间高血压发病率的变化 十年间,中国高血压平均发病率增长了6成左右,其中城市人口发病率增长了3倍之多,而农村人

美国克利夫兰医院向同行分享其数据分析算法

美国克利夫兰医院步梅奥医院之后尘,在Apervita平台上分享了自己的医疗数据分析算法。你了解Apervita吗?Apervita(http://apervita.com)是一个分享平台,医务人员或医疗机构可以将自己的研究、分析成果在该平台上发布,同行可以分享或购买,使大量的原本停留在纸面上的、被束之高阁的,或被封闭在小范围的、研究论文、数据分析结果或最佳实践等能够在同行间分享、传播或复用,不仅发

美国前哥伦比亚大学博士后《自然》论文数据造假

据Retraction Watch网站消息,前哥伦比亚大学(Columbia University )博士后Ryousuke Fujita承认其发表在《自然》(Nature)上的论文数据造假。 该论文主要研究阿尔茨海默氏病。美国科研诚信办公室(the Office of Research Integrity)发布通告称,论文中数据出现人工修改的痕迹。同时,Fujita一篇未发表的手稿中也出现数

哈佛大学教授因数据问题撤销《细胞》论文

据Retraction Watch网站消息,由于论文结果无法重复,哈佛大学(Harvard University)Richard Losick教授撤销了一篇《细胞》(Cell)论文。该论文主要研究某物质可以降解生物膜。《细胞》发布通告称,由于其他科学家发表的论文结论与Richard Losick的相冲突,Richard Losick开始重复之前的实验,发现新的实验结果不能支持之前的原始结论。因此R