Lancet Digit Health:评估GPT-4在医疗保健中延续种族和性别偏见的潜力

2024-01-03 Jenny Ou MedSci原创 发表于上海

在将目标用例纳入临床护理之前,迫切需要对GPT-4等LLM工具进行全面和透明的偏见评估。在临床实施之前,本文讨论了这些偏见的潜在来源和潜在的缓解策略。

大型语言模型(LLM),如ChatGPTGPT-4,已经显示出转变医疗保健交付的巨大希望,并正在迅速融入临床实践。事实上,医院正在进行几个基于LLM的试点项目,临床医生已经开始使用ChatGPT与患者沟通并起草临床笔记。虽然基于LLM的工具正在迅速开发,以自动化行政或文档任务,但许多临床医生也设想使用LLM进行临床决策支持。

基于LLM的工具已经显示出巨大的潜力,但也有人对使用LLM进行临床应用的担忧。广泛的研究表明,语言模型有可能编码和延续社会偏见。语言模型通常使用巨大的人类生成文本语料库进行训练,以根据前面的单词预测后续文本。通过这个过程,模型可以学会使训练数据中看到的有害偏见永久化。

尽管其中一些偏见一旦被识别,可以通过一个名为“通过人类反馈的强化学习”的过程通过额外的有针对性的培训来解决,但这是一个由人类驱动的过程,它可能不完美,甚至引入自己的偏见。编码偏见可能导致历史上边缘化或代表性不足的群体表现更差。例如,在最近的一项研究中,一项利用LLM培训的临床笔记进行临床和操作任务中,黑人患者对30天再入院的预测明显不如其他人口群体。

2023年12月18日发表在Lancet Digit Health的文章,其目标是衡量GPT-4编码种族和性别偏见的倾向,并研究在临床应用中使用GPT-4可能造成的潜在危害。研究人员在四个临床用例上评估了GPT-4:医学教育、诊断推理、临床计划生成和主观患者评估。

本文使用Azure OpenAI应用程序界面,该模型评估研究测试了GPT-4是否编码了种族和性别偏见,并研究了此类偏见对临床领域LLM的四个潜在应用的影响——即医学教育、诊断推理、临床计划生成和主观患者评估。研究人员用旨在类似于GPT-4在临床和医学教育应用中的典型使用的提示进行了实验。

本文使用了NEJM Healer的临床小插曲和已发表的关于医疗保健隐性偏见的研究。将医疗条件人口分布的GPT-4估计值与美国真正的流行率估计值进行了比较。使用标准统计测试对人群之间的显著性进行了不同人口群体的差异诊断和治疗计划评估。

研究结果显示,GPT-4没有适当地模拟医疗条件的人口多样性,持续产生定型人口表现的临床小插曲。GPT-4为标准化临床小品创建的鉴别诊断更有可能包括对某些种族、民族和性别刻板印象的诊断。该模型创建的评估和计划显示,人口属性与更昂贵手术的建议以及患者认知的差异之间存在显著关联。

调查GPT-4产生的鉴别诊断中的偏差

综上所述,尽管GPT-4有潜力改善医疗保健的提供,但其编码社会偏见的趋势引起了人们对其在临床决策支持中的使用的严重担忧。需要有针对性的偏见评估、缓解策略以及大力强调模型培训和数据来源的透明度,以确保基于LLM的工具为每个人带来好处。

 

原文出处

Zack, T., Lehman, E., Suzgun, M., Rodriguez, J. A., Celi, L. A., Gichoya, J., ... & Alsentzer, E. (2024). Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study. The Lancet Digital Health, 6(1), e12-e22.

相关资料下载:
[AttachmentFileName(sort=1, fileName=1-s2.0-S258975002300225X-main.pdf)] GetArticleByIdResponse(id=9e1180e950b8, projectId=1, sourceId=null, title=Lancet Digit Health:评估GPT-4在医疗保健中延续种族和性别偏见的潜力, articleFrom=MedSci原创, journalId=16623, copyright=原创, creationTypeList=[1], summary=在将目标用例纳入临床护理之前,迫切需要对GPT-4等LLM工具进行全面和透明的偏见评估。在临床实施之前,本文讨论了这些偏见的潜在来源和潜在的缓解策略。 , cover=https://img.medsci.cn/20240103/1704248428251_2570354.jpg, authorId=0, author=Jenny Ou, originalUrl=, linkOutUrl=, content=<p><span style="color: #595959; font-size: 14px;"><span style="color: #3573b9;">大型语言模型(LLM)</span>,如<span style="color: #3573b9;">ChatGPT</span>和<span style="color: #3573b9;">GPT-4</span>,已经显示出转变医疗保健交付的巨大希望,并正在迅速融入临床实践。事实上,医院正在进行几个基于LLM的试点项目,临床医生已经开始使用ChatGPT与患者沟通并起草临床笔记。<strong>虽然基于LLM的工具正在迅速开发,以自动化行政或文档任务,但许多临床医生也设想使用LLM进行临床决策支持。</strong></span></p> <p><span style="color: #595959; font-size: 14px;"><img class="wscnph" style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20240102/1704231011950_8624070.png" /></span></p> <p><span style="color: #595959; font-size: 14px;">基于LLM的工具已经显示出巨大的潜力,但也有人对使用LLM进行临床应用的担忧。广泛的研究表明,语言模型有可能编码和延续社会偏见。语言模型通常使用巨大的人类生成文本语料库进行训练,以根据前面的单词预测后续文本。通过这个过程,模型可以学会使训练数据中看到的有害偏见永久化。</span></p> <p><span style="color: #595959; font-size: 14px;">尽管其中一些偏见一旦被识别,可以通过一个名为&ldquo;通过人类反馈的强化学习&rdquo;的过程通过额外的有针对性的培训来解决,但这是一个由人类驱动的过程,它可能不完美,甚至引入自己的偏见。编码偏见可能导致历史上边缘化或代表性不足的群体表现更差。例如,在最近的一项研究中,一项利用LLM培训的临床笔记进行临床和操作任务中,黑人患者对30天再入院的预测明显不如其他人口群体。</span></p> <p><span style="color: #595959; font-size: 14px;"><strong><span style="color: #3573b9;">2023年12月18日</span></strong>发表在<em><strong><span style="color: #3573b9;">Lancet Digit Health</span></strong></em>的文章,其目标是衡量GPT-4编码种族和性别偏见的倾向,并研究在临床应用中使用GPT-4可能造成的潜在危害。研究人员在四个临床用例上评估了GPT-4:医学教育、诊断推理、临床计划生成和主观患者评估。</span></p> <p><span style="color: #595959; font-size: 14px;">本文使用Azure OpenAI应用程序界面,该模型评估研究测试了GPT-4是否编码了种族和性别偏见,并研究了此类偏见对临床领域LLM的四个潜在应用的影响&mdash;&mdash;即医学教育、诊断推理、临床计划生成和主观患者评估。研究人员用旨在类似于GPT-4在临床和医学教育应用中的典型使用的提示进行了实验。</span></p> <p><span style="color: #595959; font-size: 14px;">本文使用了NEJM Healer的临床小插曲和已发表的关于医疗保健隐性偏见的研究。将医疗条件人口分布的GPT-4估计值与美国真正的流行率估计值进行了比较。使用标准统计测试对人群之间的显著性进行了不同人口群体的差异诊断和治疗计划评估。</span></p> <p><span style="color: #595959; font-size: 14px;">研究结果显示,GPT-4没有适当地模拟医疗条件的人口多样性,持续产生定型人口表现的临床小插曲。GPT-4为标准化临床小品创建的鉴别诊断更有可能包括对某些种族、民族和性别刻板印象的诊断。该模型创建的评估和计划显示,人口属性与更昂贵手术的建议以及<span style="color: #595959;">患者</span>认知<span style="color: #595959;">的差异</span>之间存在显著关联。</span></p> <p><span style="color: #595959; font-size: 14px;"><img class="wscnph" style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20240102/1704231069006_8624070.jpg" /></span></p> <p style="text-align: center;"><span style="color: #888888; font-size: 12px;">调查GPT-4产生的鉴别诊断中的偏差</span></p> <p><span style="color: #595959; font-size: 14px;">综上所述,尽管GPT-4有潜力改善医疗保健的提供,但其编码社会偏见的趋势引起了人们对其在临床决策支持中的使用的严重担忧。<strong>需要有针对性的偏见评估、缓解策略以及大力强调模型培训和数据来源的透明度,以确保基于LLM的工具为每个人带来好处。</strong></span></p> <p><span style="color: #595959; font-size: 14px;"><!-- notionvc: ff634a79-0145-4f85-9af7-231ea0c3c29f --></span></p> <p>&nbsp;</p> <p><span style="color: #888888; font-size: 12px;">原文出处</span></p> <p><span style="color: #888888; font-size: 12px;">Zack, T., Lehman, E., Suzgun, M., Rodriguez, J. A., Celi, L. A., Gichoya, J., ... &amp; Alsentzer, E. (2024). Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study. The Lancet Digital Health, 6(1), e12-e22.</span></p>, belongTo=, tagList=[TagDto(tagId=11077, tagName=医疗保健), TagDto(tagId=467560, tagName=GPT-4)], categoryList=[CategoryDto(categoryId=69, categoryName=检验病理, tenant=100), CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=1565, appHits=10, showAppHits=0, pcHits=139, showPcHits=1555, likes=0, shares=1, comments=1, approvalStatus=1, publishedTime=Wed Jan 03 10:20:00 CST 2024, publishedTimeString=2024-01-03, pcVisible=1, appVisible=1, editorId=6556185, editor=检验病理新前沿, waterMark=0, formatted=0, deleted=0, version=4, createdBy=dac48624070, createdName=JennyOu, createdTime=Wed Jan 03 05:34:13 CST 2024, updatedBy=2570354, updatedName=王佳佳BOM, updatedTime=Sat Jan 06 22:10:06 CST 2024, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=1-s2.0-S258975002300225X-main.pdf)], guideDownload=1)
1-s2.0-S258975002300225X-main.pdf
版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2178969, encodeId=411a21e8969ed, content=<a href='/topic/show?id=22a03480efa' target=_blank style='color:#2F92EE;'>#医疗保健#</a> <a href='/topic/show?id=3e6d10506ee1' target=_blank style='color:#2F92EE;'>#GPT-4#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=32, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=105067, encryptionId=3e6d10506ee1, topicName=GPT-4), TopicDto(id=34807, encryptionId=22a03480efa, topicName=医疗保健)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed Jan 03 10:20:53 CST 2024, time=2024-01-03, status=1, ipAttribution=上海)]
    2024-01-03 梅斯管理员 来自上海

相关资讯

AJT:医疗保健专业人员和设计经济学家跨学科合作的首次肝脏配对交流

通过发展在高容量中心或多中心项目中进行大于双向交换的能力,可以增加LPE的LDLT数量。

Microba推出新一代医疗保健检测产品

MetaXplore™系列可提供胃肠道健康诊断检测,以及宏基因组肠道微生物组分析

Lancet Oncol.| 人工智能可以改善癌症治疗吗?

该篇文章报道了人工智能能否改善癌症患者的治疗,随着人工智能的持续发展,这项技术的影响可能会提高生产力,解决气候变化问题,并彻底改变医疗保健专业人员诊断、治疗和管理疾病的方式。

J AM COLL RADIOL:医疗保健相关成本对钼靶使用的影响

虽然《平价医疗法案》要求公共和私人医疗保险公司支付乳腺钼靶筛查的费用,而不需要支付共付额或自付额以提高获取的机会,但对与潜在癌症诊断有关的下游费用的恐惧或病人对保险参数的误解可能导致不参与常规筛查。

靠处方药比价而上市的GoodRx,会搅动美国的医疗保健行业吗?

近年来GoodRx业绩表现愈发强劲,特别是今年上半年,净利润接近5500万美元,同比增长77%,其收入达到2.57亿美元,同比增长48%。

MIT发布亚洲AI医疗发展情况分析报告

《AI医疗:亚洲的发展空间、能力和主动健康的未来》是MIT Technology Review Insights在百度公司的支持下撰写的一份报告。这份报告通过对该地区医疗服务和科技引领者的采访、案头调研和对中国医疗机构的实地调研编写而成,以评估人工智能是如何用于改善医疗服务成果的。具体而言,报告研究了该地区的医疗保健提供商、科技公司以及政府机构之间如何通过协作,来确定和应对各自国家/地区的重大和长