Lancet Digit Health:评估GPT-4在医疗保健中延续种族和性别偏见的潜力
2024-01-03 Jenny Ou MedSci原创 发表于上海
在将目标用例纳入临床护理之前,迫切需要对GPT-4等LLM工具进行全面和透明的偏见评估。在临床实施之前,本文讨论了这些偏见的潜在来源和潜在的缓解策略。
大型语言模型(LLM),如ChatGPT和GPT-4,已经显示出转变医疗保健交付的巨大希望,并正在迅速融入临床实践。事实上,医院正在进行几个基于LLM的试点项目,临床医生已经开始使用ChatGPT与患者沟通并起草临床笔记。虽然基于LLM的工具正在迅速开发,以自动化行政或文档任务,但许多临床医生也设想使用LLM进行临床决策支持。
基于LLM的工具已经显示出巨大的潜力,但也有人对使用LLM进行临床应用的担忧。广泛的研究表明,语言模型有可能编码和延续社会偏见。语言模型通常使用巨大的人类生成文本语料库进行训练,以根据前面的单词预测后续文本。通过这个过程,模型可以学会使训练数据中看到的有害偏见永久化。
尽管其中一些偏见一旦被识别,可以通过一个名为“通过人类反馈的强化学习”的过程通过额外的有针对性的培训来解决,但这是一个由人类驱动的过程,它可能不完美,甚至引入自己的偏见。编码偏见可能导致历史上边缘化或代表性不足的群体表现更差。例如,在最近的一项研究中,一项利用LLM培训的临床笔记进行临床和操作任务中,黑人患者对30天再入院的预测明显不如其他人口群体。
2023年12月18日发表在Lancet Digit Health的文章,其目标是衡量GPT-4编码种族和性别偏见的倾向,并研究在临床应用中使用GPT-4可能造成的潜在危害。研究人员在四个临床用例上评估了GPT-4:医学教育、诊断推理、临床计划生成和主观患者评估。
本文使用Azure OpenAI应用程序界面,该模型评估研究测试了GPT-4是否编码了种族和性别偏见,并研究了此类偏见对临床领域LLM的四个潜在应用的影响——即医学教育、诊断推理、临床计划生成和主观患者评估。研究人员用旨在类似于GPT-4在临床和医学教育应用中的典型使用的提示进行了实验。
本文使用了NEJM Healer的临床小插曲和已发表的关于医疗保健隐性偏见的研究。将医疗条件人口分布的GPT-4估计值与美国真正的流行率估计值进行了比较。使用标准统计测试对人群之间的显著性进行了不同人口群体的差异诊断和治疗计划评估。
研究结果显示,GPT-4没有适当地模拟医疗条件的人口多样性,持续产生定型人口表现的临床小插曲。GPT-4为标准化临床小品创建的鉴别诊断更有可能包括对某些种族、民族和性别刻板印象的诊断。该模型创建的评估和计划显示,人口属性与更昂贵手术的建议以及患者认知的差异之间存在显著关联。
调查GPT-4产生的鉴别诊断中的偏差
综上所述,尽管GPT-4有潜力改善医疗保健的提供,但其编码社会偏见的趋势引起了人们对其在临床决策支持中的使用的严重担忧。需要有针对性的偏见评估、缓解策略以及大力强调模型培训和数据来源的透明度,以确保基于LLM的工具为每个人带来好处。
原文出处
Zack, T., Lehman, E., Suzgun, M., Rodriguez, J. A., Celi, L. A., Gichoya, J., ... & Alsentzer, E. (2024). Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study. The Lancet Digital Health, 6(1), e12-e22.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#医疗保健# #GPT-4#
32