PNAS:改善大数据集分析的准确性

2014-03-25 佚名 测序中国

日前,来自哈佛医学院等机构的研究人员发现,整合了交叉验证的一种数据集分析技术可能有能力识别出从生物信息学到语言学等领域的多维数据集的模式。 对大数据集的自动分析可能识别出数据的模式,但是无法评估发现的模式的显著性,这可能导致无意义的结果。 研究人员发展了一种数据分析方法,它包括了一个交叉验证步骤,从而识别出最显著的模式,这种方法称为通过准确性最大化的知识发现(KODAMA)。一个迭代过程评估了

日前,来自哈佛医学院等机构的研究人员发现,整合了交叉验证的一种数据集分析技术可能有能力识别出从生物信息学到语言学等领域的多维数据集的模式。

对大数据集的自动分析可能识别出数据的模式,但是无法评估发现的模式的显著性,这可能导致无意义的结果。

研究人员发展了一种数据分析方法,它包括了一个交叉验证步骤,从而识别出最显著的模式,这种方法称为通过准确性最大化的知识发现(KODAMA)。一个迭代过程评估了对数据的可能的分类,从而对尽可能多的数据点进行归类,并且通过合并类似的数据类,削减可能的数据类的数量。最后,定义了一个相异度矩阵从而评估数据点之间的关系。

研究人员把通过准确性最大化的知识发现(KODAMA)应用到了几个数据集上,包括淋巴瘤遗传学、代谢组学和上溯到 1900 年的美国国情咨文的语言学特征。

对于国情咨文,研究人员表示通过准确性最大化的知识发现(KODAMA)揭示出了在罗纳德•里根总统任期期间的一种转变,诸如“劳动”、“生产”和“开支”等词汇的频率减少,而诸如“父母”、“子女”和“改革”等词汇的频率增加。

研究人员表示,这些结果提示通过准确性最大化的知识发现(KODAMA)可能有能力从有噪声或复杂的数据集中提取出有意义的模式。

原始出处:

Stefano Cacciatore, Claudio Luchinat, and Leonardo Tenori. Knowledge discovery by accuracy maximization. PNAS, March 24, 2014; doi:10.1073/pnas.1220873111

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1905876, encodeId=7db219058e60d, content=<a href='/topic/show?id=34953120e52' target=_blank style='color:#2F92EE;'>#准确性#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=39, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=31207, encryptionId=34953120e52, topicName=准确性)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=512a199, createdName=lilianxiang, createdTime=Mon Jun 16 02:50:00 CST 2014, time=2014-06-16, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1855528, encodeId=194e185552866, content=<a href='/topic/show?id=f32014428fc' target=_blank style='color:#2F92EE;'>#PNAS#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=28, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=14428, encryptionId=f32014428fc, topicName=PNAS)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=08e964, createdName=drwjr, createdTime=Mon Nov 10 06:50:00 CST 2014, time=2014-11-10, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1905876, encodeId=7db219058e60d, content=<a href='/topic/show?id=34953120e52' target=_blank style='color:#2F92EE;'>#准确性#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=39, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=31207, encryptionId=34953120e52, topicName=准确性)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=512a199, createdName=lilianxiang, createdTime=Mon Jun 16 02:50:00 CST 2014, time=2014-06-16, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1855528, encodeId=194e185552866, content=<a href='/topic/show?id=f32014428fc' target=_blank style='color:#2F92EE;'>#PNAS#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=28, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=14428, encryptionId=f32014428fc, topicName=PNAS)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=08e964, createdName=drwjr, createdTime=Mon Nov 10 06:50:00 CST 2014, time=2014-11-10, status=1, ipAttribution=)]
    2014-11-10 drwjr

相关资讯

从FitBits到临床研究:大数据会如何改变医药行业

所谓大数据就是可用的大数据集以及对它们加以分析的能力。其他行业正在朝着将更多数据转移至云端的方向发展,将它们储存在远程而非内部服务器上。亚马逊式的侧重点会给医疗保健带来哪些机会呢?以下人物在今年早些时候举办的福布斯医疗峰会上对此进行了讨论:苏珊·德斯蒙德-海尔曼(Susan Desmond-Hellmann),加州大学旧金山分校校长,曾担任基因泰克公司(Genentech)的开发负责人,任职期

IBM收购Aspera 突破大数据传输瓶颈 有望应用于医疗领域

医疗大数据有一个重大的特点是数据“大”,一张CT或MR片子约300M,如果提高清晰度,所需容量更大,大量的影像学数据资料的传输瓶颈,限制了医疗信息化,以及远程诊疗的普及。因为,几乎没有足够的带宽能做到实时传输。 但最近的技术突破,有望解决这一难题。来自美国加州埃默里维尔市的Aspera公司,使用创新的FASP技术,能使大数据传输时间减少99.9%,可以使一个24G的文件传输从原来的26小时减少到

科学家解读流感病毒:或可用大数据预测暴发

今冬,H7N9禽流感“卷土重来”。最近几日,各地又陆续出现了不少确诊病例。为何流感病毒总对人类“死缠烂打”?人类是否能够战胜拥有庞大亚型且变异迅速的流感病毒?昨晚做客第174期新民科学咖啡馆的两位科学家表示,在人类和流感病毒之间的这场永不停歇的“军备竞赛”中,科学研究跟踪病毒的脚步近年来已快了许多。 今冬H7N9“大流行”? 流感病毒的个头实在是太小(100纳米),只有头发丝直径的千分之一

2014年大数据领域趋势十二大预测

 大数据是2013年热度最高的技术词汇,这一年大数据市场也实现了高速增长,越来越多的企业开始拥抱大数据解决方案,而随着生态系统的日益成熟,Hadoop也不再是天才技术人员的玩具,而是数据科学家和业务人员手中挖掘数据商业价值的强大“矿机”。  如果说2013年只是大数据市场的热身赛和预选赛,那么2014年大数据市场将迎来世界杯盛宴,近日CIO杂志给出了2014年大数据市场十大预测:  预测一、大数据

医疗未来场景:大数据化的管理与决策体系

题注:与健康相关的数据正在呈爆炸式增长。一家纽约医院从硅谷招来顶级人才,正加紧步伐为“大数据化”的医疗未来做准备。在那个未来中,医院将可分析和预测病人的健康需求,甚至将颠覆我们对疾病的认知。杰夫·哈默巴德(Jeff Hammerbacher)是西奈山伊坎医学院的研究人员,他的办公室坐落于全美国经济两极化最彻底的地区之一。放眼望去,办公室南边是纽约时髦上东区的联排别墅,北部则是落后的东哈莱姆贫民

李嘉诚捐300万美元助斯坦福牛津研究医疗大数据

    美国斯坦福大学23日表示,该校医学院又获李嘉诚基金会捐赠300万美元研究“大数据”,将与英国牛津大学合作,利用庞大生物医学数据库改善人类健康,减低医疗成本。    斯坦福大学称,“大数据”被视为生物医学科学的下一轮革命,有助在减低成本的同时,加快开发新药及为病人提供更佳的个人化疗程。    英国生物样