eBioMedicine:大型语言模型在十种语言和4917例罕见病诊断中的一致性表现

2025-12-03 熊佳仪 MedSci原创 发表于上海

尽管LLM以英语数据为主,其在多语言罕见病鉴别诊断中表现稳健,为非英语地区、尤其是资源匮乏国家部署AI辅助诊断系统提供了积极依据。

大型语言模型(LLM)在医学领域,尤其是在罕见病鉴别诊断中的应用备受关注。然而,由于其训练数据主要基于英语,人们对其在非英语语境下的表现存疑。罕见病诊断本就困难,患者常经历漫长且易误诊的过程。既往研究多聚焦英语环境,缺乏对多语言场景下LLM性能的系统评估。为此,本研究评估了LLM在十种语言中执行罕见病鉴别诊断任务的一致性。 研究团队构建了一个包含4917个真实病例的数据集,涵盖360种遗传病和2525种表型特征,所有病例均依据人类表型本体(HPO)和全球基因组与健康联盟的“表型包”标准进行结构化描述。为实现多语言测试,HPO术语被翻译成中文、捷克语、荷兰语、法语、德语、意大利语、日语、西班牙语和土耳其语共九种语言,并通过名为phenopacket2prompt的Java工具自动生成标准化提示文本。提示内容包括患者年龄、性别、发病时间及表型异常等,采用固定指令+可变临床信息的模板结构,并由专家对54个模拟案例进行跨语言验证以确保准确性。 评估使用GPT-4o和医学微调模型Meditron3-70B,均采用零样本提示策略,要求模型返回按可能性排序的诊断列表。GPT-4o通过API调用(温度

相关资料下载:
[AttachmentFileName(sort=1, fileName=PIIS2352396425004013.pdf)] GetArticleByIdResponse(id=88e99138602d, projectId=1, sourceId=null, title=eBioMedicine:大型语言模型在十种语言和4917例罕见病诊断中的一致性表现, articleFrom=MedSci原创, journalId=12746, copyright=原创, creationTypeList=[1], summary=尽管LLM以英语数据为主,其在多语言罕见病鉴别诊断中表现稳健,为非英语地区、尤其是资源匮乏国家部署AI辅助诊断系统提供了积极依据。, cover=https://img.medsci.cn/20240322/1711088122508_2570354.jpg, authorId=0, author=熊佳仪, originalUrl=, linkOutUrl=, content=大型语言模型(LLM)在医学领域,尤其是在罕见病鉴别诊断中的应用备受关注。然而,由于其训练数据主要基于英语,人们对其在非英语语境下的表现存疑。罕见病诊断本就困难,患者常经历漫长且易误诊的过程。既往研究多聚焦英语环境,缺乏对多语言场景下LLM性能的系统评估。为此,本研究评估了LLM在十种语言中执行罕见病鉴别诊断任务的一致性。 研究团队构建了一个包含4917个真实病例的数据集,涵盖360种遗传病和2525种表型特征,所有病例均依据人类表型本体(HPO)和全球基因组与健康联盟的“表型包”标准进行结构化描述。为实现多语言测试,HPO术语被翻译成中文、捷克语、荷兰语、法语、德语、意大利语、日语、西班牙语和土耳其语共九种语言,并通过名为phenopacket2prompt的Java工具自动生成标准化提示文本。提示内容包括患者年龄、性别、发病时间及表型异常等,采用固定指令+可变临床信息的模板结构,并由专家对54个模拟案例进行跨语言验证以确保准确性。 评估使用GPT-4o和医学微调模型Meditron3-70B,均采用零样本提示策略,要求模型返回按可能性排序的诊断列表。GPT-4o通过API调用(温度, belongTo=, tagList=[TagDto(tagId=8461, tagName=人工智能), TagDto(tagId=487358, tagName=大型语言模型), TagDto(tagId=512496, tagName=人类表型本体), TagDto(tagId=512497, tagName=基因组诊断)], categoryList=[CategoryDto(categoryId=72, categoryName=人工智能, tenant=100), CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=304, categoryName=罕见病, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=0, paymentType=1, paymentAmount=1, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=1192, appHits=0, showAppHits=0, pcHits=142, showPcHits=1192, likes=0, shares=0, comments=0, approvalStatus=1, publishedTime=Wed Dec 03 09:24:00 CST 2025, publishedTimeString=2025-12-03, pcVisible=1, appVisible=1, editorId=6545039, editor=罕见病新前沿, waterMark=0, formatted=0, deleted=0, version=3, createdBy=074a6512445, createdName=xiongjy, createdTime=Tue Dec 02 06:35:53 CST 2025, updatedBy=92910, updatedName=rayms, updatedTime=Wed Dec 03 09:25:12 CST 2025, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=PIIS2352396425004013.pdf)], guideDownload=1, surveyId=null, surveyIdStr=null, surveyName=null, pushMsXiaoZhi=true, qaList=[{id=1399150, encryptionId=2ea6139915082, articleId=88e99138602d, userName=administrator, question=基于表型本体的结构化数据输入与真实临床自由文本病历相比,对LLM诊断准确性会产生多大差异?, answer=本研究局限在于依赖结构化表型数据,真实临床场景中自由文本的噪声可能降低模型表现,需后续研究验证。, clickNum=0, type=article, createdAt=1764725130085, updatedAt=1764725130085}, {id=1399153, encryptionId=7e11139915385, articleId=88e99138602d, userName=administrator, question=如何解决LLM在非英语医疗场景中产生的术语映射失败问题?, answer=需建立更完善的多语言医学术语映射系统,研究中中文/日语的'接地失败率'较高提示当前Mondo本体需扩展覆盖。, clickNum=0, type=article, createdAt=1764725130085, updatedAt=1764725130085}])
PIIS2352396425004013.pdf
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2291642, encodeId=b9212291642f9, content=<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a> <a href='/topic/show?id=10ab1254183f' target=_blank style='color:#2F92EE;'>#大型语言模型#</a> <a href='/topic/show?id=9fea134121cb' target=_blank style='color:#2F92EE;'>#人类表型本体#</a> <a href='/topic/show?id=f34913412203' target=_blank style='color:#2F92EE;'>#基因组诊断#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=80, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能), TopicDto(id=134121, encryptionId=9fea134121cb, topicName=人类表型本体), TopicDto(id=134122, encryptionId=f34913412203, topicName=基因组诊断), TopicDto(id=125418, encryptionId=10ab1254183f, topicName=大型语言模型)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed Dec 03 09:25:12 CST 2025, time=2025-12-03, status=1, ipAttribution=上海)]

相关资讯

Nurse Education in Practice:灾害护理应急培训接受度提升机制,AI-VR 逃生室教学模式的实证分析

基于AI-VR的灾害护理逃生室教学法不仅能显著提升护士与助产士的培训接受度,还在有限资源条件下实现了高仿真、高参与度的应急能力训练,为护理教育提供了可扩展的创新路径。