哥伦比亚大学副教授翁春华:大量的医疗数据不正确、不完整并且不可用

2017-06-29 张利 雷锋网

哥伦比亚大学医疗信息学系副教授翁春华以“云计算和大数据带来了很好的机会,但拥抱的同时也应该知道数据可能存在的局限性”开始了她的演讲,她指出医疗数据现状令人担忧。据翁春华副教授介绍,医疗大数据存在的问题有数据质量不高、数据不完整、信息不具体、数据重复、数据分布不均与、信息不集中等。数据不正确医院常用的疾病分类标准是ICD9/10,诊断信息最常见的问题是粒度不够。ICD的信息本来都是统计出来的,所以真

哥伦比亚大学医疗信息学系副教授翁春华以“云计算和大数据带来了很好的机会,但拥抱的同时也应该知道数据可能存在的局限性”开始了她的演讲,她指出医疗数据现状令人担忧。

据翁春华副教授介绍,医疗大数据存在的问题有数据质量不高、数据不完整、信息不具体、数据重复、数据分布不均与、信息不集中等。

数据不正确

医院常用的疾病分类标准是ICD9/10,诊断信息最常见的问题是粒度不够。ICD的信息本来都是统计出来的,所以真正有意义的深度信息和表型信息应该来自于文本或者是其它更有意义的数据类型。另外,ICD9/10有漏诊和过渡诊断的问题。

如果生成的数据是医生特别忙的时候,他们可能没有时间把正确的代码找出来,只是找几个特别有用的或可以代表病人疾病的数据,漏掉其它非主要的疾病。如果诊断信息不是医生生成,而是专门人员生成,他们可能会漏掉一些经济价值不高的信息。

我们有一次做研究寻找高血压病人,让他们参与有关高血压临床测试,结果我们发现所有病人都没有关于高血压的ICD9/10数据,医生说因为所有人都有高血压,所以懒得把信息放在病例里,病人患其它疾病时才会把信息放在病例里。可以看到,电子病例的很多信息是否记录是基于记录人的需要,之后信息会被用来重用或做其他研究分析,如果不知道当初记录信息时的筛选标准,有可能产生误导。

还有就是过度诊断的问题,患者的情况不断变化,有可能以前患有的病现在已经治好了,但这些信息还继续留在那里,当你拿到电子病例的时候,可能以为这个病人还患有这种病。如果基于这些信息分析的话,有可能会被误导。

数据不完整

衡量数据是否完整有4个维度,分别是:有多少医疗事件会被记录;数据类型有多少;同一数据类型是否有完整的数据收集结果;是否有具体的数据值。

长老医院有450万病人的电子病历记录,可以说数据是非常庞大的,但如果用这四个维度衡量一下,结果让人大吃一惊。

我们的实验中纳入了390万个病人信息,只有一半左右的病例满足其中一种完整性标准;1/4满足更严格的数据完整性要求,比如其文本信息和来访时间记录吻合或有多个来访记录等;仅有小部分有充分信息或有研究价值;只有0.6%的病历完全符合4种数据完整性定义。

在此之前,我们乐观地认为有海量数据,可以做很多事情。但分析之后,我们才知道在用数据之前衡量一下数据能做什么非常重要。

数据不可用

数据的重复性严重影响数据挖掘的算法结果解释。病人疾病进展记录中54%是重复的,出院记录的30.7%和登记记录完全一样。电子病例中有很多没有价值、不产生新信息的数据,这些数据分析影响特别大,带来偏见和噪音,降低数据的可用价值,其实其中很多信息根本没用。大家都继续粘贴和复制,更加加大了数据的不一致性。如果需要使用要寻找真实的信息和信息来源,但这个过程很困难。如果欲根据其中数据概念的频率了解概念和疾病的相关性,不能直接用,因为频率受重复性的影响,很多概念是通过拷贝生成的。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1591598, encodeId=0679159159814, content=<a href='/topic/show?id=85213500260' target=_blank style='color:#2F92EE;'>#医疗数据#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=0, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=35002, encryptionId=85213500260, topicName=医疗数据)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=eded17951306, createdName=yzh405, createdTime=Sat Jul 01 11:42:00 CST 2017, time=2017-07-01, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=216856, encodeId=0a152168568c, content=这句话非常中肯,在医疗你永远不缺大数据,主要是缺有价值的数据, beContent=null, objectType=article, channel=null, level=null, likeNumber=55, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=c4a5105539, createdName=lovetcm, createdTime=Thu Jun 29 23:16:54 CST 2017, time=2017-06-29, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1591598, encodeId=0679159159814, content=<a href='/topic/show?id=85213500260' target=_blank style='color:#2F92EE;'>#医疗数据#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=0, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=35002, encryptionId=85213500260, topicName=医疗数据)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=eded17951306, createdName=yzh405, createdTime=Sat Jul 01 11:42:00 CST 2017, time=2017-07-01, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=216856, encodeId=0a152168568c, content=这句话非常中肯,在医疗你永远不缺大数据,主要是缺有价值的数据, beContent=null, objectType=article, channel=null, level=null, likeNumber=55, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=c4a5105539, createdName=lovetcm, createdTime=Thu Jun 29 23:16:54 CST 2017, time=2017-06-29, status=1, ipAttribution=)]
    2017-06-29 lovetcm

    这句话非常中肯,在医疗你永远不缺大数据,主要是缺有价值的数据

    0

相关资讯

詹启敏:健康大数据将成为未来很大的数据



在健康报社、中国信息通信研究院、贵阳日报传媒集团联合主办的“从理念到应用——健康大数据高峰论坛”上,中国工程院院士、北京大学医学部主任詹启敏教授作为一位大数据的粉丝,讲述了他对健康大数据的理解,整个报告感染力极强,难寻尿点。报告之后,现场嘉宾、听众、媒体纷纷加入大数据“粉丝团”,气氛热烈。

詹启敏认为,大健康发展策略应该是关注生命全过程,即从生命出生第一天开始,一直到生命的终结。正因为人类的存在,会与社会、环境、微生物、气候产生互动,而这些互动就会导致健康的改变,因而会生成大量的与健康相关的数据,由此推断,健康大数据将会在数量、价值等方面超越其他领域。

全球专利巨擘如何玩转医疗数据

有营收、有研发,针对疾病,让数据说话。

陈金雄:迈过这些坎儿 医疗数据才能实现开放

医疗数据开放能产生哪些价值,又还存在哪些难点?知名医疗信息化与医院管理专家陈金雄是这么说的