JMIR:ChatGPT在临床决策中,准确率高达71.7%!

2024-01-07 MedSci原创 MedSci原创 发表于加利福尼亚

美国最大的非营利医疗机构之一,麻省布里格姆医院集团,发表了一份关于ChatGPT在临床医疗决策中应用的研究论文。麻省布里格姆医院由麻省总医院(Massachusetts General Hospita

美国最大的非营利医疗机构之一,麻省布里格姆医院集团,发表了一份关于ChatGPT在临床医疗决策中应用的研究论文。麻省布里格姆医院由麻省总医院(Massachusetts General Hospital)和布莱根妇女医院(Brigham and Women's Hospital)于1994年合并而成。

据该医院称,ChatGPT在诊断提出、推荐诊断检查、最终诊断以及护理管理决策等方面的准确率达到了71.7%,在整个临床决策过程中表现令人惊讶。尤其值得一提的是,与初步诊断相比,ChatGPT在最终诊断任务中展现出了最高的准确率,达到了76.9%。

此外,在所有医学专业领域中,ChatGPT在初级保健和急诊环境中均表现出色,可作为医疗助手,辅助主治医生加强决策、治疗和护理工作,其在医疗领域的潜力巨大。

评估方法

研究人员评估了ChatGPT 在解决医疗综合临床决策方面的准确性,比较了患者的年龄、性别和临床表现的敏锐度。

通过将临床工作流程的每一部分,作为对模型的连续提问,依次提出鉴别诊断、诊断测试、最终诊断和临床管理

数据来源和测试

测试数据选自《默克手册》,这世界上最古老和最广泛使用的医学参考书之一,涵盖了各种疾病和医疗状况的详细信息,包括症状、病因、诊断、治疗和预防等内容

例如,现病史 (HPI)、系统审查 (ROS)、体检(PE) 和实验室测试结果等,以模拟鉴别诊断、诊断检查和临床管理中的决策。

病例记录是通过将《默克手册》插图直接复制到 ChatGPT 中生成的。所有要求临床医生分析图像的问题都被排除在研究之外,因为ChatGPT 还无法准确识别医疗图片信息。

评分方法,ChatGPT每回答对一道题将获得1分,例如,每次 ChatGPT 的答案与提供的《默克手册》答案一致时都会获得一分。每一道题的最终分数计算为 3 次重复分数的平均值。

不同患者和年龄的表现

研究人员进行了多变量线性回归分析,以研究患者年龄和性别对ChatGPT 准确性的影响。年龄和性别的回归系数均不显着(年龄:P= 0.35;性别:P = 0.59;)。

这一结果表明,ChatGPT的表现在本研究中的各个年龄段,以及性别的二元定义中都是相同的。

测试结果:ChatGPT在所有36个临床测试题中的总体准确率达到71.7%;在做出最终诊断方面表现出最高的表现,准确率为76.9% ;在生成初级鉴别诊断方面表现最低,准确率为60.3%。

 

总体来说,ChatGPT在临床决策方面取得了令人印象深刻的准确性,并且随着它获得更多可用的临床信息将变得越来越强大。特别是,与初始诊断相比,ChatGPT在最终诊断任务中表现出最高的准确性。

在用药方面,ChatGPT可以提供正确用药但无法给出准确的剂量,这可能表明ChatGPT的训练数据偏向于语言准确性,而不是数字准确性。

如果想获得更准确的答案,可能需要对模型进行特定领域的数据训练和微调。

当然,研究也发现ChatGPT的局限性。首先,AI模型的推理能力不足,导致偶尔推荐无效治疗或即使拥有所有必要信息也拒绝提供诊断的情况。这些限制涉及误差类型,包括不一致性和虚构性。另一个局限性是研究所使用的内容是否与ChatGPT的训练数据集重叠,但对于研究的目的来说,这并不重要。

总的来说,AI在临床中的潜在价值,并提出了将其整合到电子健康记录中的可能性,以提高患者的治疗效果和工作效率。

原始出处:

Rao A, Pang M, Kim J, Kamineni M, Lie W, Prasad AK, Landman A, Dreyer K, Succi MD. Assessing the Utility of ChatGPT Throughout the Entire Clinical Workflow: Development and Usability Study.J Med Internet Res. 2023 Aug 22;25:e48659. doi: 10.2196/48659.

相关资料下载:
[AttachmentFileName(sort=1, fileName=PDF.pdf)] GetArticleByIdResponse(id=8e808085e56c, projectId=1, sourceId=null, title=JMIR:ChatGPT在临床决策中,准确率高达71.7%!, articleFrom=MedSci原创, journalId=4032, copyright=原创, creationTypeList=[1], summary=美国最大的非营利医疗机构之一,麻省布里格姆医院集团,发表了一份关于ChatGPT在临床医疗决策中应用的研究论文。麻省布里格姆医院由麻省总医院(Massachusetts General Hospita, cover=https://img.medsci.cn/images/20240106/defa347cb6a94d23ac72e87734f85633.jpg, authorId=0, author=, originalUrl=, linkOutUrl=, content=<p>美国最大的非营利医疗机构之一,麻省布里格姆医院集团,发表了一份关于ChatGPT在临床医疗决策中应用的研究论文。麻省布里格姆医院由麻省总医院(Massachusetts General Hospital)和布莱根妇女医院(Brigham and Women's Hospital)于1994年合并而成。</p> <p>据该医院称,ChatGPT在<a href="https://www.medsci.cn/guideline/list.do?q=%E8%AF%8A%E6%96%AD">诊断</a>提出、推荐诊断检查、最终诊断以及护理<a href="https://www.medsci.cn/guideline/list.do?q=%E7%AE%A1%E7%90%86">管理</a>决策等方面的准确率达到了71.7%,在整个临床决策过程中表现令人惊讶。尤其值得一提的是,与初步诊断相比,ChatGPT在最终诊断任务中展现出了最高的准确率,达到了76.9%。</p> <p>此外,在所有医学专业领域中,ChatGPT在初级保健和急诊环境中均表现出色,可作为医疗助手,辅助主治医生加强决策、治疗和护理工作,其在医疗领域的潜力巨大。</p> <p style="color: rgba(0, 0, 0, 0.9);"><img src="https://img.medsci.cn/images/20240106/defa347cb6a94d23ac72e87734f85633.jpg" data-type="jpeg" data-w="554" data-index="0" data-sec-load-status="2" /></p> <p style="color: rgba(0, 0, 0, 0.9);"><strong>评估方法</strong></p> <p style="color: rgba(0, 0, 0, 0.9);">研究人员评估了ChatGPT 在解决医疗综合临床决策方面的准确性,比较了患者的年龄、性别和临床表现的敏锐度。</p> <p style="color: rgba(0, 0, 0, 0.9);">通过将临床工作流程的每一部分,作为对模型的连续提问,<strong>依次提出鉴别诊断、诊断测试、最终诊断和临床管理</strong>。</p> <p style="color: rgba(0, 0, 0, 0.9);"><img src="https://img.medsci.cn/images/20240106/b16dba38f5804b57b683ef9070449d6c.jpg" data-type="png" data-w="554" data-index="1" data-fail="0" /></p> <p style="color: rgba(0, 0, 0, 0.9);"><strong>数据来源和测试</strong></p> <p style="color: rgba(0, 0, 0, 0.9);">测试数据选自《默克手册》,这世界上最古老和最广泛使用的医学参考书之一,<strong>涵盖了各种疾病和医疗状况的详细信息,包括症状、病因、诊断、治疗和预防等内容</strong>。</p> <p style="color: rgba(0, 0, 0, 0.9);">例如,现病史 (HPI)、系统审查 (ROS)、体检(PE) 和实验室测试结果等,以模拟鉴别诊断、诊断检查和临床管理中的决策。</p> <p style="color: rgba(0, 0, 0, 0.9);"><strong>病例记录是通过将《默克手册》插图直接复制到 ChatGPT 中生成的</strong>。所有要求临床医生分析图像的问题都被排除在研究之外,因为ChatGPT 还无法准确识别医疗图片信息。</p> <p style="color: rgba(0, 0, 0, 0.9);">评分方法,ChatGPT每回答对一道题将获得1分,例如,每次 ChatGPT 的答案与提供的《默克手册》答案一致时都会获得一分。每一道题的最终分数计算为 3 次重复分数的平均值。</p> <p style="color: rgba(0, 0, 0, 0.9);"><strong>不同患者和年龄的表现</strong></p> <p style="color: rgba(0, 0, 0, 0.9);">研究人员进行了多变量线性回归分析,以研究患者年龄和性别对ChatGPT 准确性的影响。年龄和性别的回归系数均不显着(年龄:P= 0.35;性别:P = 0.59;)。</p> <p style="color: rgba(0, 0, 0, 0.9);"><img class="rich_pages wxw-img" src="https://img.medsci.cn/images/20240106/1e899777d6b548acb1bddb06aae9b511.jpg" data-type="png" data-w="554" data-index="2" data-fail="0" /></p> <p style="color: rgba(0, 0, 0, 0.9);">这一结果表明,ChatGPT的表现在本研究中的各个年龄段,以及性别的二元定义中都是相同的。</p> <p style="color: rgba(0, 0, 0, 0.9);"><strong>测试结果:</strong><strong>ChatGPT在所有36个临床测试题中的总体准确率达到71.7%;</strong>在做出最终诊断方面表现出最高的表现,准确率为76.9%&nbsp;;在生成初级鉴别诊断方面表现最低,准确率为60.3%。</p> <p style="color: rgba(0, 0, 0, 0.9);"><img class="rich_pages wxw-img" src="https://img.medsci.cn/images/20240106/0129864cb5784c60a407ad57ac578710.jpg" data-type="png" data-w="554" data-index="3" data-fail="0" /></p> <p style="color: rgba(0, 0, 0, 0.9);">&nbsp;</p> <p style="color: rgba(0, 0, 0, 0.9);">总体来说,<strong>ChatGPT在临床决策方面取得了令人印象深刻的准确性,并且随着它获得更多可用的临床信息将变得越来越强大</strong>。特别是,与初始诊断相比,ChatGPT在最终诊断任务中表现出最高的准确性。</p> <p style="color: rgba(0, 0, 0, 0.9);">在用药方面,ChatGPT可以提供正确用药但无法给出准确的剂量,这可能表明ChatGPT的训练数据偏向于语言准确性,而不是数字准确性。</p> <p>如果想获得更准确的答案,可能需要对模型进行特定领域的数据训练和微调。</p> <p>当然,研究也发现ChatGPT的局限性。首先,AI模型的推理能力不足,导致偶尔推荐无效治疗或即使拥有所有必要信息也拒绝提供诊断的情况。这些限制涉及误差类型,包括不一致性和虚构性。另一个局限性是研究所使用的内容是否与ChatGPT的训练数据集重叠,但对于研究的目的来说,这并不重要。</p> <p>总的来说,AI在临床中的潜在价值,并提出了将其整合到电子健康记录中的可能性,以提高患者的治疗效果和工作效率。</p> <p style="color: rgba(0, 0, 0, 0.9);">原始出处:</p> <p style="color: rgba(0, 0, 0, 0.9);"><span class="docsum-authors full-authors" style="color: #212121;">Rao A, Pang M, Kim J, Kamineni M, Lie W, Prasad AK, Landman A, Dreyer K, Succi MD.</span> <a class="docsum-title" style="color: #0071bc;" href="https://pubmed.ncbi.nlm.nih.gov/37606976/" data-ga-category="result_click" data-ga-action="1" data-ga-label="37606976" data-full-article-url="from_term=ChatGPT+Throughout+the+Entire+Clinical+Workflow&amp;from_sort=date&amp;from_size=200&amp;from_pos=1" data-article-id="37606976">Assessing the Utility of&nbsp;<strong>ChatGPT</strong>&nbsp;<strong>Throughout</strong>&nbsp;the&nbsp;<strong>Entire</strong>&nbsp;<strong>Clinical</strong>&nbsp;<strong>Workflow</strong>: Development and Usability Study.</a><span class="docsum-journal-citation full-journal-citation">J Med Internet Res. 2023 Aug 22;25:e48659. doi: 10.2196/48659.</span></p>, belongTo=, tagList=[TagDto(tagId=8461, tagName=人工智能), TagDto(tagId=14411, tagName=临床决策), TagDto(tagId=15263, tagName=临床决策支持), TagDto(tagId=467561, tagName=chatGPT)], categoryList=[CategoryDto(categoryId=72, categoryName=人工智能, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=3718, appHits=16, showAppHits=0, pcHits=104, showPcHits=3700, likes=0, shares=0, comments=0, approvalStatus=1, publishedTime=Sun Jan 07 11:59:00 CST 2024, publishedTimeString=2024-01-07, pcVisible=1, appVisible=1, editorId=5521196, editor=小M, waterMark=0, formatted=0, deleted=0, version=4, createdBy=f63e4754896, createdName=侠胆医心, createdTime=Sun Jan 07 11:07:58 CST 2024, updatedBy=4754896, updatedName=侠胆医心, updatedTime=Sun Jan 07 11:30:19 CST 2024, ipAttribution=加利福尼亚, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=PDF.pdf)])
PDF.pdf
版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2179780, encodeId=40e021e978000, content=<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a> <a href='/topic/show?id=ab292269213' target=_blank style='color:#2F92EE;'>#临床决策#</a> <a href='/topic/show?id=243622695c6' target=_blank style='color:#2F92EE;'>#临床决策支持#</a> <a href='/topic/show?id=c751105068f0' target=_blank style='color:#2F92EE;'>#chatGPT#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=28, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=105068, encryptionId=c751105068f0, topicName=chatGPT), TopicDto(id=22692, encryptionId=ab292269213, topicName=临床决策), TopicDto(id=22695, encryptionId=243622695c6, topicName=临床决策支持), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sun Jan 07 11:08:08 CST 2024, time=2024-01-07, status=1, ipAttribution=加利福尼亚)]

相关资讯

Lancet子刊:新型人工智能在浅表食管鳞状细胞癌和癌前病变中的筛查效果

这种人工智能系统在现实世界临床环境中的有效性和成本效益仍有待进一步评估。

人工智能在癌症筛查的全球专利格局

本研究旨在分析人工智能和癌症相关专利的全球格局。从而提供有价值的信息,以支持明智的战略决策,例如确定潜在的伙伴、竞争对手和未来研究和发展的领域。

eGastroenterology:人工智能在肝细胞癌诊断中的应用

人工智能,特别是深度学习和神经网络模型,在目前放射学检测HCC方面显示出巨大前景。AI在HCC诊断方面具有多种优势,包括减少诊断的异质性、优化数据分析以及重新分配医疗资源。基于AI的放射诊断的进步对于

Nature:2023年度全球十大科学人物,人工智能ChatGPT入选

《自然》年度十大人物(Nature’s 10)每年从全球的重大科学事件中评选出十位人物,而今年还有一位非人类上榜——ChatGPT。2023年的科学界取得了一些非凡

Nature Immunology综述 | 利用空间技术解码肿瘤微环境

文章评估了新兴多维空间技术的优势和局限性,重点关注其在肿瘤免疫学中的应用;阐述了人工智能(AI)出现为空间组学带来的变革,以及整合多组学数据集以全面了解TME的价值。

文献荐读|张国君教授:人工智能组织学预后特征指导乳腺癌精准治疗

本研究提出了一种人工智能组织学预后特征(HiPS)风险评分系统。首先,基于深度学习人工智能对整张病理切片进行定量评估,提取出一种客观的可定量的组织学分级评估。