eBioMedicine:大型语言模型在十种语言和4917例罕见病诊断中的一致性表现
2025-12-03 熊佳仪 MedSci原创 发表于上海
尽管LLM以英语数据为主,其在多语言罕见病鉴别诊断中表现稳健,为非英语地区、尤其是资源匮乏国家部署AI辅助诊断系统提供了积极依据。
大型语言模型(LLM)在医学领域,尤其是在罕见病鉴别诊断中的应用备受关注。然而,由于其训练数据主要基于英语,人们对其在非英语语境下的表现存疑。罕见病诊断本就困难,患者常经历漫长且易误诊的过程。既往研究多聚焦英语环境,缺乏对多语言场景下LLM性能的系统评估。为此,本研究评估了LLM在十种语言中执行罕见病鉴别诊断任务的一致性。 研究团队构建了一个包含4917个真实病例的数据集,涵盖360种遗传病和2525种表型特征,所有病例均依据人类表型本体(HPO)和全球基因组与健康联盟的“表型包”标准进行结构化描述。为实现多语言测试,HPO术语被翻译成中文、捷克语、荷兰语、法语、德语、意大利语、日语、西班牙语和土耳其语共九种语言,并通过名为phenopacket2prompt的Java工具自动生成标准化提示文本。提示内容包括患者年龄、性别、发病时间及表型异常等,采用固定指令+可变临床信息的模板结构,并由专家对54个模拟案例进行跨语言验证以确保准确性。 评估使用GPT-4o和医学微调模型Meditron3-70B,均采用零样本提示策略,要求模型返回按可能性排序的诊断列表。GPT-4o通过API调用(温度
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言



#人工智能# #大型语言模型# #人类表型本体# #基因组诊断#
80 举报