病历智能分析系统如何助力医学大数据

2018-01-16 佚名 中国数字医学

病历作为医院的宝贵财富,里面蕴含了大量的专业知识,但是由于受到技术的限制,长期得不到有效利用。目前很多医院的医生还停留在去病案室借阅病历,手工摘抄收集科研数据的阶段,效率十分低下。如何利用最新的人工智能技术,让机器“读懂”病历数据,提高临床科研效率和质量,是目前亟需解决的课题。对病历文本相关的智能分析主要涉及自然语言处理技术,相关研究开始于20世纪60年代的美国,衍生出包括医学信息抽取、临床问

病历作为医院的宝贵财富,里面蕴含了大量的专业知识,但是由于受到技术的限制,长期得不到有效利用。目前很多医院的医生还停留在去病案室借阅病历,手工摘抄收集科研数据的阶段,效率十分低下。如何利用最新的人工智能技术,让机器“读懂”病历数据,提高临床科研效率和质量,是目前亟需解决的课题。

对病历文本相关的智能分析主要涉及自然语言处理技术,相关研究开始于20世纪60年代的美国,衍生出包括医学信息抽取、临床问答系统和临床决策支持系统等。对于医学文本信息抽取,目前已经有相对成熟的系统在医院使用,包括MedLEE、Ctakes和GATE等。YongGang Cao等构建了帮助医生查询病人症状有关帮助的AskHERMES问答系统。

我国医学自然语言处理的发展水平还与发达国家有一定差距,主要集中在基于规则和专家系统的方法,而将机器学习、深度学习应用到医学自然语言处理需要更加深入的研究。对此,我们结合国内外最新的研究现状,在我院率先开展了利用自然语言处理技术构建病历智能分析系统的研究工作。

病历智能分析系统设计

一、功能模块

病历智能分析系统的核心技术是自然语言处理。系统主要涉及句法学、语义学和语用学共三个不同等级的语言学分析,由分词、病历标注、命名实体识别和语义关联抽取共四个模块组成,如图1所示。


图1 病历智能分析系统功能模块设计

二、核心技术

1.分词

作为病历智能分析的第一步,对中文病历文本进行分词至关重要。病历文本内有大量的医学专业术语和表达,这种特点导致传统中文分词工具对病历文本的分词效果不好。例如药品名“去甲伪麻黄碱”会被划分为“去/甲/伪/麻黄碱”,而不是将其当成一个整体。为了提高对病历文本的分词效果,需要收集医学专业词汇和常用药品名等,将这些词条整合成词典作为分词工具的补充。将词典与开源的“结巴分词”工具相结合来对中文电子病历进行分词处理,构成一个完全非监督、无需人工标注即可使用的中文病历分词引擎。

2.病历标注

有监督的机器学习方法能对病历文本中的医学知识和患者的健康信息进行抽取,而进行监督学习的第一步是进行病历文本的人工标注,以使得标注后的数据能够对机器进行有效的训练。

我们对两类信息:医学命名实体(包括疾病、疾病诊断、临床症状、检查和治疗等),以及实体间的语义关联(治疗和疾病间的关系、治疗和症状的关系、检查和疾病的关系、检查和症状的关系以及疾病和症状的关系),进行了人工标注。在标注过程中我们采用了BIO的标注体系,即B表示一个命名实体的开始,I表示目标词在命名实体的内部,O表示目标词不属于命名实体。

我们随机抽样了来自我院的3000份出院小结,并召集我院内的临床实习生对其进行上述标注。在其中300份病历上,我们制定了两名标注者同时对其进行标注,并使用Cohen′s Kappa计算其标注一致性,并获得了0.68的Kappa值。

3.命名实体识别分析技术

命名实体识别技术指的是将病历中重要的医学实体,如疾病、症状、检查、治疗变量等从病历文本中抽取出来。例如“患者30余年前因反复咳嗽咳痰多次就诊,诊断为慢性支气管炎,平素服用顺尔宁控制症状”这句话中,“咳嗽咳痰”被识别为症状,“慢性支气管炎”被识别为诊断,“顺尔宁”被识别为药物,属于医疗手段。

由于病历文本是由自由文本书写而成,因此将这些医学命名实体进行识别时将病历文本进行结构化是病历智能分析的重要环节。目前命名实体识别的方法主要分为基于词典和规则的方法和基于机器学习的方法。基于词典和规则的方法需要人工编制出很多相关规则和专业的医学词典,而词典和规则的编制过程需要大量的人力,并且这些规则和词典应用到病历文本时受到命名实体上下文的影响很大,因此效果不是很理想;而基于机器学习的方法是将命名实体识别任务作为序列数据的标注问题,主要考虑上下文的信息。

目前公认完成命名实体识别性能较好的机器学习模型是条件随机场(Conditional Random Fields),特征构造过程中常用的特征是上下文特征、字典特征等。我们利用条件随机场来训练命名实体识别模型,并采用了开源的CRF++作为我们依赖的工具。我们使用原始字、分词的结果、以及上下文(窗口大小为5)中的信息作为特征,对CRF模型进行训练。并利用上一章节中所述的3000份标注病历,我们对其进行了5-fold的交叉验证。结果显示命名实体识别的总体F-1评分(Micro-F)达到了0.92,证实了模型能够准确地完成医学命名实体识别的任务。

4.语义关联抽取技术

对病历文本中抽取出来命名实体之间的语义关联进行分析,也是病历智能分析的重要环节。抽取的关系包括疾病和症状之间的关系、疾病和治疗之间的关系、时间副词的修饰等。在这个步骤中,我们把问题转化成了一个分类问题。即,对于每一对特定距离内(100字以内)的命名实体(相距过远的命名实体我们认为其产生关联的可能性很小)我们使用机器学习模型去判断其是否有关联以及如果有关联其类别是什么。在本工作中,我们尝试了条件随机场(SVM)、逻辑回归、决策树(C4.5)等模型,发现在同等的特征和训练数据下,得到了相似性能。因此,我们最终采用了条件随机场作为模型,并同样对3000份标注病历进行了5-fold的交叉验证,获得了平均0.88的语义关联抽取准确度。将该分类器应用于新的病历上,能够获得的完整解析后的效果,如图2所示。

系统应用

一、加速填写病例报告表(CRF)

病例报告表(Case Report Form, CRF)是临床研究数据获取的主要工具,在药物临床实验和临床研究中都有广泛的应用。收集到准确、可靠的临床数据是临床实验的重要环节。在填写病例报告表的过程中要求填写受试者的基本信息、治疗期及随访期记录、试验结束记录等。病例报告表中包含大量的临床变量,包括患者的症状、临床表现、体征、实验室检查等情况。

利用病历智能分析系统,用命名实体识别技术能将病例报告表中需要填写的变量在受试者的报告中进行自动抽取,从而加速CRF表中的填写速度,优化临床实验的处理流程。

二、优化临床数据中心(CDR)

作为构建临床数据中心的重要环节,数据的标准化和结构化成为一个棘手的问题。由于不同系统的电子病历系统和医院信息系统的数据标准不同,电子病历中的医学信息在临床数据中心进行流通和利用困难重重。在病历智能分析系统的帮助下,以自由文本书写的病历能进行结构化,结构化后病历文本就可以在不同医院和不同区域间进行交换整合。同时,对电子病历中积压的临床数据进行结构化处理,能够实现对历史电子病历中的诊疗过程的整合,丰富临床数据中心的内容。

三、辅助临床决策支持系统(CDSS)

临床决策支持系统(Clinical Decision Support System, CDSS)是对临床工作的有益补充,能在复杂和变化的临床场景下为医务人员提供及时有效的辅助诊断,有效地提高临床决策的准确率和效率。

临床辅助决策支持系统的数据来源通常是医学书籍、文献、病历等非结构化数据,直接利用这些数据难以抽取出来诊疗过程中的变量和变量之间的关系。利用病历智能分析系统,将这些自由文本进行结构化处理之后能帮助临床辅助决策支持系统,更好地挖掘患者既往病史与医学知识的关系,提供更优质和科学的推荐方案。

本文阐述了病历智能分析系统的模块组成、核心技术及应用场景,解决了部分临床中遇到的问题,得到了临床的普遍好评。目前阶段,电子病历中的主观数据需要人工标注,占全部病历数的10%左右。如何从无标注的数据进行学习,将是未来三到五年需要解决的重要问题。此外,如何像人一样从小样本进行有效学习,以及如何从认知性的任务扩展到决策性任务,同样是需要解决的问题。相信随着人工智能技术的快速发展,特别是深度学习技术的逐渐成熟,自然语言处理技术将在医学大数据挖掘中发挥越来越重要的作用。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (3)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1809967, encodeId=2ecd180996e93, content=<a href='/topic/show?id=2b9d8426121' target=_blank style='color:#2F92EE;'>#能分析#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=26, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=84261, encryptionId=2b9d8426121, topicName=能分析)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=5c0050, createdName=lishiwen, createdTime=Thu Feb 22 07:10:00 CST 2018, time=2018-02-22, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=279511, encodeId=c0142e951151, content=是很好的学习材料.不错.以后会多学习., beContent=null, objectType=article, channel=null, level=null, likeNumber=50, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmopen/jW482SpianMayicTRbRZ5RzUn81b5CF5ibVPib8jWI92iciaxmqGHlwruOnK4SVZykd4iahqo1hicklIibyZoxm55X7EM8BW9eX1h1hQ2/0, createdBy=8aa81937526, createdName=李东泽, createdTime=Wed Jan 17 22:02:07 CST 2018, time=2018-01-17, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=279172, encodeId=137c2e917258, content=谢谢分享学习了, beContent=null, objectType=article, channel=null, level=null, likeNumber=51, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmopen/Q3auHgzwzM7GibvIBibibnnnvpajk2stlDF5oichYahI6Bia8uxeTBFoPbdoHWebyXf9eal9FNgUF2lNcrwoZicM3BvQ/0, createdBy=a3742066385, createdName=戒馋,懒,贪, createdTime=Tue Jan 16 20:29:44 CST 2018, time=2018-01-16, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1809967, encodeId=2ecd180996e93, content=<a href='/topic/show?id=2b9d8426121' target=_blank style='color:#2F92EE;'>#能分析#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=26, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=84261, encryptionId=2b9d8426121, topicName=能分析)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=5c0050, createdName=lishiwen, createdTime=Thu Feb 22 07:10:00 CST 2018, time=2018-02-22, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=279511, encodeId=c0142e951151, content=是很好的学习材料.不错.以后会多学习., beContent=null, objectType=article, channel=null, level=null, likeNumber=50, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmopen/jW482SpianMayicTRbRZ5RzUn81b5CF5ibVPib8jWI92iciaxmqGHlwruOnK4SVZykd4iahqo1hicklIibyZoxm55X7EM8BW9eX1h1hQ2/0, createdBy=8aa81937526, createdName=李东泽, createdTime=Wed Jan 17 22:02:07 CST 2018, time=2018-01-17, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=279172, encodeId=137c2e917258, content=谢谢分享学习了, beContent=null, objectType=article, channel=null, level=null, likeNumber=51, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmopen/Q3auHgzwzM7GibvIBibibnnnvpajk2stlDF5oichYahI6Bia8uxeTBFoPbdoHWebyXf9eal9FNgUF2lNcrwoZicM3BvQ/0, createdBy=a3742066385, createdName=戒馋,懒,贪, createdTime=Tue Jan 16 20:29:44 CST 2018, time=2018-01-16, status=1, ipAttribution=)]
    2018-01-17 李东泽

    是很好的学习材料.不错.以后会多学习.

    0

  3. [GetPortalCommentsPageByObjectIdResponse(id=1809967, encodeId=2ecd180996e93, content=<a href='/topic/show?id=2b9d8426121' target=_blank style='color:#2F92EE;'>#能分析#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=26, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=84261, encryptionId=2b9d8426121, topicName=能分析)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=5c0050, createdName=lishiwen, createdTime=Thu Feb 22 07:10:00 CST 2018, time=2018-02-22, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=279511, encodeId=c0142e951151, content=是很好的学习材料.不错.以后会多学习., beContent=null, objectType=article, channel=null, level=null, likeNumber=50, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmopen/jW482SpianMayicTRbRZ5RzUn81b5CF5ibVPib8jWI92iciaxmqGHlwruOnK4SVZykd4iahqo1hicklIibyZoxm55X7EM8BW9eX1h1hQ2/0, createdBy=8aa81937526, createdName=李东泽, createdTime=Wed Jan 17 22:02:07 CST 2018, time=2018-01-17, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=279172, encodeId=137c2e917258, content=谢谢分享学习了, beContent=null, objectType=article, channel=null, level=null, likeNumber=51, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://wx.qlogo.cn/mmopen/Q3auHgzwzM7GibvIBibibnnnvpajk2stlDF5oichYahI6Bia8uxeTBFoPbdoHWebyXf9eal9FNgUF2lNcrwoZicM3BvQ/0, createdBy=a3742066385, createdName=戒馋,懒,贪, createdTime=Tue Jan 16 20:29:44 CST 2018, time=2018-01-16, status=1, ipAttribution=)]
    2018-01-16 戒馋,懒,贪

    谢谢分享学习了

    0

相关资讯

病历“越堆越多” 医院如何监控?

病历档案不仅是患者的诊疗记录,还是科学发展、社会进步的基础性资料和真实写照。提高病历质量,是维护患者合法权益,保护医疗机构及医务人员合法李屹的重要途径。病历质量督查是提高病历质量切实有效的方法。在目前信息化大背景下,加强病历质量监管信息系统建设,创新督查手段,完善数据统计分析,实现质控精细化管理,提升病历质量监管水平,是各医疗机构正在积极探索的问题。上海市在此方面进行了有益探索。1现状与问题上

花式医嘱,这位医生偏爱为患者盖章!

胡学军的第一个章子,篆刻于2012年。5年过去了,他盖出去的印章,少说也有两三万个了。他的桌子上,已经有新的旧的、大大小小十来个章子。

看协和是如何书写病历的?

专家、病案、图书馆在协和历史上堪称医院“三宝”,90余年的病案承载了协和医学发展的历史,也蕴育了协和文化。90余年间,协和医学大家辈出,病案记载着他们从医学生成长为名医的足迹。中国现代病案管理以协和病案室的创建为开端。协和病案室保存病案历史最悠久、数量最多、名人病案最多,具有重要的历史文献价值,是医学界和全社会的宝贵财富。病案室副主任王怡在1月18日协和举办的住院医师规范化培训研讨会上介绍,自19

说一说:作为一名护士什么是极难的?

外界称我们是“白衣天使”,说我们“工作轻松、态度冷淡、收入颇丰”。

北京协和对医生的训练从写病历开始

病历是患者疾病发生、发展、诊断、治疗情况的系统记录,病历不仅真实反映患者病情,也直接反映医院医疗质量、学术水平及管理水平。病历既是医教研管不可替代的宝贵资料,又是帮助判定法律责任的依据,也是医保支付的凭据。北京协和医院建院96年来,对医生的训练都是从写病历开始的。协和将病历诞生的过程,视为培养医师理论与实践相结合、训练临床思维能力、积累临床经验、提高业务水平的重要途径。将每位医师写出规范、翔实

安徽论文不再“一刀切” 病历可替代论文

12月21日,记者从省政府新闻办召开的新闻发布会上获悉,我省出台《关于深化职称制度改革的实施意见》,为职称评审“松绑”。这次职称制度改革是实行专业技术职务聘任制度三十年来的首次重大改革,涉及到全省320万专业技术人员。通过改革,更加充分地发挥人才评价的“指挥棒”作用,破除专业技术人才成长的羁绊,打破专业技术人才职业发展的“天花板”,“放活”“盘活”“激活”“用活”人才,让更多优秀人才脱颖而出,