British Journal of Clinical Pharmacology:AI 助力儿科罕见病治疗!4 大语言模型角逐超说明书用药决策支持,GPT-4o 表现突出

2025-12-30 熊佳仪 MedSci原创 发表于上海

大型语言模型确实具备快速检索和初步整合生物医学信息的潜力,能够在一定程度上加速超说明书用药合理性的评估流程,为临床医生节省宝贵的文献调研时间。

在儿科医疗领域,罕见疾病的治疗始终是一项严峻挑战。全球有超过7000种罕见病,影响着约三亿人,其中约70%为儿童。令人担忧的是,约95%的这类疾病缺乏已批准的治疗方案,近30%的患儿可能在5岁前死亡。因此,临床医生常常不得不依赖超说明书用药来救治这些患儿。超说明书用药是指将药品用于监管机构批准范围之外的用途,例如不同的年龄组、剂量或适应症。这种实践在缺乏针对儿童的大规模临床试验背景下尤为常见,但它通常伴随着未经充分评估的风险,可能增加药物不良反应和相互作用的风险。在意大利,超说明书用药受到法律规范,要求必须有国际公认的科学文献支持,这使得临床医生需要耗费大量时间从海量文献中寻找高质量证据,而罕见病相关出版物往往稀少且分散。

为了探索人工智能技术在此复杂场景下的辅助潜力,一项研究旨在评估不同大型语言模型在检索和合成生物医学信息以支持儿科罕见病超说明书用药决策方面的有效性和可靠性。研究选取了2022年至2023年间在一家意大利儿童医疗机构的20例涉及不同罕见病的超说明书用药处方进行回顾性分析。研究所评估的模型包括GPT-4o、Sophos-2、Claude-3以及Scopus AI。其中,前三种模型通过一个名为Zenochat的平台访问,并设置了两种搜索模式:“学者模式”主要检索Google Scholar的学术出版物,“互联网模式”则扩展至包括灰色文献在内的更广泛网络资源。Scopus AI则直接对接Scopus数据库,并提供“摘要”和“扩展摘要”两种响应模式。为便于分析,研究将“学者模式”和“摘要模式”归类为“受限模式”,将“互联网模式”和“扩展摘要模式”归类为“扩展模式”。

研究设计围绕超说明书用药合理性的三个核心评估维度向这些模型提交了标准化的查询。第一项查询旨在探寻支持特定药物用于治疗目标罕见病的临床试验和科学出版物。第二项查询关注使用该药治疗该病时可能出现的药物不良反应。第三项查询则聚焦于超说明书药物与患者同时使用的其他药物之间可能的相互作用。针对每个病例,每个模型在两种搜索模式下对这三个问题均作出响应,共计产生了480份回答。研究团队共收集并分析了模型提供的2758条参考文献。

评估方法极为严谨,采用了基于混淆矩阵的量化指标。研究人员将模型提供的每一条参考文献根据其预测相关性和实际相关性进行分类,划分为真阳性、真阴性、假阳性和假阴性。在此基础上,计算了灵敏度、准确度、假阳性率、精确度和F1分数等多个性能指标。此外,还特别对回答第一项查询时所引用的参考文献进行了质量评分,评分依据证据等级体系,从随机对照试验到专家意见分为五级。同时,依据清晰度和完整性,采用李克特量表对每一份回答的质量进行了人工评分。最后,研究引入了一个全局性能评分,通过调和平均数综合了F1分数、准确度、假阳性率的倒数、参考文献质量和回答质量这五个维度,并对低分值施加惩罚,从而得到一个全面的模型性能综合评价。

研究结果揭示了不同大型语言模型性能上的显著差异与特点。总体而言,在综合所有查询的全局性能评分上,四个模型之间存在显著差异。事后分析表明,GPT-4o的得分显著高于Scopus AI,但没有任何一个模型在所有方面持续领先。分析不同搜索模式的影响发现,对于大多数模型和指标,受限模式与扩展模式之间的表现并无显著差异。然而,Scopus AI在扩展模式下表现出明显更高的假阳性率,同时其精确度和准确度相较于受限模式显著下降,这表明扩大搜索范围可能为其引入了更多不准确或无关的信息噪声。

针对具体查询类型的深入分析提供了更细致的洞察。对于查询科学依据的第一项问题,在受限模式下,Scopus AI展现了卓越的灵敏度,显著优于Sophos-2,并且在回答质量上明显超越所有其他模型,这很可能得益于其直接访问Scopus高质量学术文献数据库的优势。然而,在扩展模式下,Scopus AI的假阳性率急剧升高。对于查询不良反应的第二项问题,在受限模式下,各模型表现普遍相似,唯独Sophos-2的回答质量显著较差。在扩展模式下观察到的差异在经过多重比较校正后不再显著。对于查询药物相互作用的第三项问题,在扩展模式下,各模型间的性能差异变得非常明显,Scopus AI的全局性能评分显著低于其他模型。

研究还将大型语言模型检索到的参考文献质量与人类药师为相同处方评估所查找的文献质量进行了对比。尽管LLMs所引文献的质量中位数在数值上高于人类,但由于模型间和个案间的变异性很大,这一差异并未达到统计学上的显著性。这表明,虽然模型有时能找到高质量证据,但其表现并不稳定可靠,无法断言其整体上优于人类专家的文献检索。

图1 性能指标点图。(A–F)源自提交给四个大型语言模型(LLMs:Scopus AI, Sophos-2, GPT-4o 和 Claude-3)的3项查询的结果。(G)基于仅对查询1的响应的参考文献质量,以及(H)最终的全局性能评分(GPS)。所有结果按是在扩展搜索模式(红点)还是受限搜索模式(蓝点)下获得进行区分。

综上所述,大型语言模型确实具备快速检索和初步整合生物医学信息的潜力,能够在一定程度上加速超说明书用药合理性的评估流程,为临床医生节省宝贵的文献调研时间。然而,其性能表现高度依赖于具体的查询类型和所使用的搜索模式,不同模型各有优劣,且尚未展现出相对于人类专家在参考文献质量方面的稳定优势。更重要的是,模型可能产生虚假引用或提供不准确信息。因此,尽管人工智能工具展现了令人瞩目的辅助前景,但在儿科罕见病这一高风险领域,临床医生的专业判断和严密监督对于确保最终治疗决策的安全性与准确性仍然是不可或缺的。未来的研究可以扩展评估更多人工智能工具和疾病类型,并量化其带来的时间效益,以进一步明确其在支持临床决策中的最佳角色与实施方式。

原始出处:

Flamigni A, Zamagni G, Paternuosto G, Arbo A. Paediatric rare diseases: Can large language models assist off-label prescribing? Br J Clin Pharmacol. 2025;91(11):3201-3212. doi:10.1002/bcp.70168

本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。

相关资料下载:
[AttachmentFileName(sort=1, fileName=Br J Clin Pharmacol - 2025 - Flamigni - Paediatric rare diseases Can large language models assist off‐label prescribing.pdf)] GetArticleByIdResponse(id=f0d0918e10f8, projectId=1, sourceId=null, title=British Journal of Clinical Pharmacology:AI 助力儿科罕见病治疗!4 大语言模型角逐超说明书用药决策支持,GPT-4o 表现突出, articleFrom=MedSci原创, journalId=1226, copyright=原创, creationTypeList=[1], summary=大型语言模型确实具备快速检索和初步整合生物医学信息的潜力,能够在一定程度上加速超说明书用药合理性的评估流程,为临床医生节省宝贵的文献调研时间。, cover=https://img.medsci.cn/20240117/1705486337875_2570354.jpg, authorId=0, author=熊佳仪, originalUrl=, linkOutUrl=, content=<p>在儿科医疗领域,罕见疾病的治疗始终是一项严峻挑战。全球有超过7000种<a href="https://rare.medsci.cn/">罕见病</a>,影响着约三亿人,其中约70%为儿童。令人担忧的是,约95%的这类疾病缺乏已批准的治疗方案,近30%的患儿可能在5岁前死亡。因此,临床医生常常不得不依赖超说明书用药来救治这些患儿。超说明书用药是指将药品用于监管机构批准范围之外的用途,例如不同的年龄组、剂量或适应症。这种实践在缺乏针对儿童的大规模临床试验背景下尤为常见,但它通常伴随着未经充分评估的风险,可能增加药物不良反应和相互作用的风险。在意大利,超说明书用药受到法律规范,要求必须有国际公认的科学文献支持,这使得临床医生需要耗费大量时间从海量文献中寻找高质量证据,而罕见病相关出版物往往稀少且分散。</p> <p><img src="https://img.medsci.cn/20251230/1767046239695_6512445.png" /></p> <p>为了探索人工智能技术在此复杂场景下的辅助潜力,一项研究旨在评估不同大型语言模型在检索和合成生物医学信息以支持儿科罕见病超说明书用药决策方面的有效性和可靠性。研究选取了2022年至2023年间在一家意大利儿童医疗机构的20例涉及不同罕见病的超说明书用药处方进行回顾性分析。研究所评估的模型包括GPT-4o、Sophos-2、Claude-3以及Scopus AI。其中,前三种模型通过一个名为Zenochat的平台访问,并设置了两种搜索模式:&ldquo;学者模式&rdquo;主要检索Google Scholar的学术出版物,&ldquo;互联网模式&rdquo;则扩展至包括灰色文献在内的更广泛网络资源。Scopus AI则直接对接Scopus数据库,并提供&ldquo;摘要&rdquo;和&ldquo;扩展摘要&rdquo;两种响应模式。为便于分析,研究将&ldquo;学者模式&rdquo;和&ldquo;摘要模式&rdquo;归类为&ldquo;受限模式&rdquo;,将&ldquo;互联网模式&rdquo;和&ldquo;扩展摘要模式&rdquo;归类为&ldquo;扩展模式&rdquo;。</p> <p><a href="https://www.medsci.cn/department/details?s_id=67">研究设计</a>围绕超说明书用药合理性的三个核心评估维度向这些模型提交了标准化的查询。第一项查询旨在探寻支持特定药物用于治疗目标罕见病的临床试验和科学出版物。第二项查询关注使用该药治疗该病时可能出现的药物不良反应。第三项查询则聚焦于超说明书药物与患者同时使用的其他药物之间可能的相互作用。针对每个病例,每个模型在两种搜索模式下对这三个问题均作出响应,共计产生了480份回答。研究团队共收集并分析了模型提供的2758条参考文献。</p> <p>评估方法极为严谨,采用了基于混淆矩阵的量化指标。研究人员将模型提供的每一条参考文献根据其预测相关性和实际相关性进行分类,划分为真阳性、真阴性、假阳性和假阴性。在此基础上,计算了灵敏度、准确度、假阳性率、精确度和F1分数等多个性能指标。此外,还特别对回答第一项查询时所引用的参考文献进行了质量评分,评分依据证据等级体系,从随机对照试验到专家意见分为五级。同时,依据清晰度和完整性,采用李克特量表对每一份回答的质量进行了人工评分。最后,研究引入了一个全局性能评分,通过调和平均数综合了F1分数、准确度、假阳性率的倒数、参考文献质量和回答质量这五个维度,并对低分值施加惩罚,从而得到一个全面的模型性能综合评价。</p> <p>研究结果揭示了不同大型语言模型性能上的显著差异与特点。总体而言,在综合所有查询的全局性能评分上,四个模型之间存在显著差异。事后分析表明,GPT-4o的得分显著高于Scopus AI,但没有任何一个模型在所有方面持续领先。分析不同搜索模式的影响发现,对于大多数模型和指标,受限模式与扩展模式之间的表现并无显著差异。然而,Scopus AI在扩展模式下表现出明显更高的假阳性率,同时其精确度和准确度相较于受限模式显著下降,这表明扩大搜索范围可能为其引入了更多不准确或无关的信息噪声。</p> <p>针对具体查询类型的深入分析提供了更细致的洞察。对于查询科学依据的第一项问题,在受限模式下,Scopus AI展现了卓越的灵敏度,显著优于Sophos-2,并且在回答质量上明显超越所有其他模型,这很可能得益于其直接访问Scopus高质量学术文献数据库的优势。然而,在扩展模式下,Scopus AI的假阳性率急剧升高。对于查询不良反应的第二项问题,在受限模式下,各模型表现普遍相似,唯独Sophos-2的回答质量显著较差。在扩展模式下观察到的差异在经过多重比较校正后不再显著。对于查询药物相互作用的第三项问题,在扩展模式下,各模型间的性能差异变得非常明显,Scopus AI的全局性能评分显著低于其他模型。</p> <p>研究还将大型语言模型检索到的参考文献质量与人类药师为相同处方评估所查找的文献质量进行了对比。尽管LLMs所引文献的质量中位数在数值上高于人类,但由于模型间和个案间的变异性很大,这一差异并未达到<a href="https://www.medsci.cn/search?q=%E7%BB%9F%E8%AE%A1">统计</a>学上的显著性。这表明,虽然模型有时能找到高质量证据,但其表现并不稳定可靠,无法断言其整体上优于人类专家的文献检索。</p> <p><img src="https://img.medsci.cn/20251230/1767046272970_6512445.png" /></p> <p>图1 性能指标点图。(A&ndash;F)源自提交给四个大型语言模型(LLMs:Scopus AI, Sophos-2, GPT-4o 和 Claude-3)的3项查询的结果。(G)基于仅对查询1的响应的参考文献质量,以及(H)最终的全局性能评分(GPS)。所有结果按是在扩展搜索模式(红点)还是受限搜索模式(蓝点)下获得进行区分。</p> <p>综上所述,大型语言模型确实具备快速检索和初步整合生物医学信息的潜力,能够在一定程度上加速超说明书用药合理性的评估流程,为临床医生节省宝贵的文献调研时间。然而,其性能表现高度依赖于具体的查询类型和所使用的搜索模式,不同模型各有优劣,且尚未展现出相对于人类专家在参考文献质量方面的稳定优势。更重要的是,模型可能产生虚假引用或提供不准确信息。因此,尽管人工智能工具展现了令人瞩目的辅助前景,但在儿科罕见病这一高风险领域,临床医生的专业判断和严密监督对于确保最终治疗决策的安全性与准确性仍然是不可或缺的。未来的研究可以扩展评估更多人工智能工具和疾病类型,并量化其带来的时间效益,以进一步明确其在支持临床决策中的最佳角色与实施方式。</p> <p><span style="color: #999999;">原始出处:</span></p> <p><span style="color: #999999;">Flamigni A, Zamagni G, Paternuosto G, Arbo A. Paediatric rare diseases: Can large language models assist off-label prescribing? Br J Clin Pharmacol. 2025;91(11):3201-3212. doi:10.1002/bcp.70168</span></p> <p><span style="color: #999999;">本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。 </span></p>, belongTo=, tagList=[TagDto(tagId=8461, tagName=人工智能), TagDto(tagId=15263, tagName=临床决策支持), TagDto(tagId=27238, tagName=超说明书用药), TagDto(tagId=487358, tagName=大型语言模型)], categoryList=[CategoryDto(categoryId=11, categoryName=药械, tenant=100), CategoryDto(categoryId=18, categoryName=儿科, tenant=100), CategoryDto(categoryId=72, categoryName=人工智能, tenant=100), CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=304, categoryName=罕见病, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=1538, appHits=0, showAppHits=0, pcHits=125, showPcHits=1538, likes=0, shares=0, comments=0, approvalStatus=1, publishedTime=Tue Dec 30 08:09:00 CST 2025, publishedTimeString=2025-12-30, pcVisible=1, appVisible=1, editorId=6545039, editor=罕见病新前沿, waterMark=0, formatted=0, deleted=0, version=3, createdBy=074a6512445, createdName=xiongjy, createdTime=Tue Dec 30 06:12:44 CST 2025, updatedBy=92910, updatedName=rayms, updatedTime=Thu Jan 01 13:38:36 CST 2026, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=Br J Clin Pharmacol - 2025 - Flamigni - Paediatric rare diseases Can large language models assist off‐label prescribing.pdf)], guideDownload=1, surveyId=null, surveyIdStr=null, surveyName=null, pushMsXiaoZhi=true, qaList=[{id=1526622, encryptionId=8847152662236, articleId=f0d0918e10f8, userName=administrator, question=AI生成的药物相互作用预警存在假阳性时,可能对临床决策产生哪些负面影响?, answer=过度预警可能导致:1) 不必要的停药或剂量调整;2) 增加替代药物使用风险;3) 延误治疗时机。研究显示Scopus AI扩展模式的假阳性率达38%,强调需人工复核关键相互作用提示。, clickNum=0, type=article, createdAt=1767245936960, updatedAt=1767245936960}, {id=1526627, encryptionId=50fc152662ee3, articleId=f0d0918e10f8, userName=administrator, question=在资源有限地区,如何利用AI技术改善儿科罕见病的超说明书用药可及性?, answer=可部署轻量级方案:1) 离线版模型处理核心查询;2) 建立常见罕见病用药证据库;3) 远程会诊系统整合AI初步分析。研究提示GPT-4o在基础硬件上仍保持85%的核心性能。, clickNum=0, type=article, createdAt=1767245936960, updatedAt=1767245936960}])
Br J Clin Pharmacol - 2025 - Flamigni - Paediatric rare diseases Can large language models assist off‐label prescribing.pdf
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2295508, encodeId=2914229550819, content=<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a> <a href='/topic/show?id=243622695c6' target=_blank style='color:#2F92EE;'>#临床决策支持#</a> <a href='/topic/show?id=480192929b3' target=_blank style='color:#2F92EE;'>#超说明书用药#</a> <a href='/topic/show?id=10ab1254183f' target=_blank style='color:#2F92EE;'>#大型语言模型#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=0, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=22695, encryptionId=243622695c6, topicName=临床决策支持), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能), TopicDto(id=125418, encryptionId=10ab1254183f, topicName=大型语言模型), TopicDto(id=92929, encryptionId=480192929b3, topicName=超说明书用药)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Thu Jan 01 13:38:36 CST 2026, time=2026-01-01, status=1, ipAttribution=上海)]

相关资讯

专家临床医生与人工智能在罕见病诊断中的正面比较

此次研究为AI在罕见病领域的应用提供了现实检验,强调“人机协同”而非“机器替代”的发展方向,对推动智能诊断工具的临床整合具有重要参考价值。

Lancet子刊:当CT/MRI影像被AI“翻译”成病理报告,肝癌术前评估进入生成式智能时代

HepaPathGPT代表了人工智能在医学影像解读领域一次范式转变的开端——从辅助检测识别,走向跨模态的深度理解与生成。

Journal of Hepatology:肝病学中人工智能应用的障碍及克服策略

本文提出了推动人工智能在肝病学中临床转化的核心路径。

对话大咖 | 顾晋教授:AI时代,外科医生的“驭智”与“育人”

在第十届国家癌症中心结直肠癌学术会议上,【医悦汇】有幸邀请到北京大学首钢医院顾晋教授做客对话大咖栏目,探讨AI在外科领域的价值,以及外科医生该如何“驾驭”智能,坚守医学的人文本质。

【协和医学杂志】人工智能在药物不良反应监测中的作用: 现状与挑战

本文系统回顾了AI在ADR监测领域应用的关键方法,分析了结构化数据、EHR、社交媒体等不同数据源的应用场景与优势,同时指出当前该领域在数据质量、模型可解释性等方面面临的挑战。

Nutrients:AI辅助术后营养指导的指南依从性评估,以胃袖状切除术为例的人工智能生成饮食方案对比

这项研究评估三种AI模型生成的术后饮食方案与ASMBS及AACE/TOS指南的依从性,指出AI辅助方案的潜力与局限。

专家论坛|李君:人工智能在肝衰竭预警及预后体系中的应用与挑战

本文将系统综述基于AI的肝衰竭预警及预后研究进展,以期为优化肝衰竭的诊治模式提供参考。 

专家论坛|范建高:人工智能在代谢相关脂肪性肝病中的应用

近年来,人工智能(AI)技术的发展实现了从复杂多样的临床数据集中提取相关信息,特别是影像学和病理学图像数据,包含诊断、预后和预测信息,AI可以准确提取这些有效信息,作为决策支持工具应用于临床实践。

述评|刘辉:人工智能结合多模态影像融合技术在肝脏外科中的应用

人工智能技术可以对大量的影像数据进行快速分析与处理,通过机器学习或深度学习支持模型自主学习肝脏和肿瘤的影像学特征,实现病变的智能识别,辅助术前诊断、术中治疗和术后预测等,从而有助于肝脏疾病的诊断和治疗

专家论坛|孔媛媛 :人工智能相关肝病临床试验的方法学考量

本文将聚焦于肝病领域的相关应用场景,从方法学角度系统梳理AI在肝病临床试验中的应用现状和主要挑战,并结合国际主流AI方法学和医学研究报告规范,探讨相应的解决策略。