British Journal of Clinical Pharmacology:AI 助力儿科罕见病治疗!4 大语言模型角逐超说明书用药决策支持,GPT-4o 表现突出
2025-12-30 熊佳仪 MedSci原创 发表于上海
大型语言模型确实具备快速检索和初步整合生物医学信息的潜力,能够在一定程度上加速超说明书用药合理性的评估流程,为临床医生节省宝贵的文献调研时间。
在儿科医疗领域,罕见疾病的治疗始终是一项严峻挑战。全球有超过7000种罕见病,影响着约三亿人,其中约70%为儿童。令人担忧的是,约95%的这类疾病缺乏已批准的治疗方案,近30%的患儿可能在5岁前死亡。因此,临床医生常常不得不依赖超说明书用药来救治这些患儿。超说明书用药是指将药品用于监管机构批准范围之外的用途,例如不同的年龄组、剂量或适应症。这种实践在缺乏针对儿童的大规模临床试验背景下尤为常见,但它通常伴随着未经充分评估的风险,可能增加药物不良反应和相互作用的风险。在意大利,超说明书用药受到法律规范,要求必须有国际公认的科学文献支持,这使得临床医生需要耗费大量时间从海量文献中寻找高质量证据,而罕见病相关出版物往往稀少且分散。

为了探索人工智能技术在此复杂场景下的辅助潜力,一项研究旨在评估不同大型语言模型在检索和合成生物医学信息以支持儿科罕见病超说明书用药决策方面的有效性和可靠性。研究选取了2022年至2023年间在一家意大利儿童医疗机构的20例涉及不同罕见病的超说明书用药处方进行回顾性分析。研究所评估的模型包括GPT-4o、Sophos-2、Claude-3以及Scopus AI。其中,前三种模型通过一个名为Zenochat的平台访问,并设置了两种搜索模式:“学者模式”主要检索Google Scholar的学术出版物,“互联网模式”则扩展至包括灰色文献在内的更广泛网络资源。Scopus AI则直接对接Scopus数据库,并提供“摘要”和“扩展摘要”两种响应模式。为便于分析,研究将“学者模式”和“摘要模式”归类为“受限模式”,将“互联网模式”和“扩展摘要模式”归类为“扩展模式”。
研究设计围绕超说明书用药合理性的三个核心评估维度向这些模型提交了标准化的查询。第一项查询旨在探寻支持特定药物用于治疗目标罕见病的临床试验和科学出版物。第二项查询关注使用该药治疗该病时可能出现的药物不良反应。第三项查询则聚焦于超说明书药物与患者同时使用的其他药物之间可能的相互作用。针对每个病例,每个模型在两种搜索模式下对这三个问题均作出响应,共计产生了480份回答。研究团队共收集并分析了模型提供的2758条参考文献。
评估方法极为严谨,采用了基于混淆矩阵的量化指标。研究人员将模型提供的每一条参考文献根据其预测相关性和实际相关性进行分类,划分为真阳性、真阴性、假阳性和假阴性。在此基础上,计算了灵敏度、准确度、假阳性率、精确度和F1分数等多个性能指标。此外,还特别对回答第一项查询时所引用的参考文献进行了质量评分,评分依据证据等级体系,从随机对照试验到专家意见分为五级。同时,依据清晰度和完整性,采用李克特量表对每一份回答的质量进行了人工评分。最后,研究引入了一个全局性能评分,通过调和平均数综合了F1分数、准确度、假阳性率的倒数、参考文献质量和回答质量这五个维度,并对低分值施加惩罚,从而得到一个全面的模型性能综合评价。
研究结果揭示了不同大型语言模型性能上的显著差异与特点。总体而言,在综合所有查询的全局性能评分上,四个模型之间存在显著差异。事后分析表明,GPT-4o的得分显著高于Scopus AI,但没有任何一个模型在所有方面持续领先。分析不同搜索模式的影响发现,对于大多数模型和指标,受限模式与扩展模式之间的表现并无显著差异。然而,Scopus AI在扩展模式下表现出明显更高的假阳性率,同时其精确度和准确度相较于受限模式显著下降,这表明扩大搜索范围可能为其引入了更多不准确或无关的信息噪声。
针对具体查询类型的深入分析提供了更细致的洞察。对于查询科学依据的第一项问题,在受限模式下,Scopus AI展现了卓越的灵敏度,显著优于Sophos-2,并且在回答质量上明显超越所有其他模型,这很可能得益于其直接访问Scopus高质量学术文献数据库的优势。然而,在扩展模式下,Scopus AI的假阳性率急剧升高。对于查询不良反应的第二项问题,在受限模式下,各模型表现普遍相似,唯独Sophos-2的回答质量显著较差。在扩展模式下观察到的差异在经过多重比较校正后不再显著。对于查询药物相互作用的第三项问题,在扩展模式下,各模型间的性能差异变得非常明显,Scopus AI的全局性能评分显著低于其他模型。
研究还将大型语言模型检索到的参考文献质量与人类药师为相同处方评估所查找的文献质量进行了对比。尽管LLMs所引文献的质量中位数在数值上高于人类,但由于模型间和个案间的变异性很大,这一差异并未达到统计学上的显著性。这表明,虽然模型有时能找到高质量证据,但其表现并不稳定可靠,无法断言其整体上优于人类专家的文献检索。

图1 性能指标点图。(A–F)源自提交给四个大型语言模型(LLMs:Scopus AI, Sophos-2, GPT-4o 和 Claude-3)的3项查询的结果。(G)基于仅对查询1的响应的参考文献质量,以及(H)最终的全局性能评分(GPS)。所有结果按是在扩展搜索模式(红点)还是受限搜索模式(蓝点)下获得进行区分。
综上所述,大型语言模型确实具备快速检索和初步整合生物医学信息的潜力,能够在一定程度上加速超说明书用药合理性的评估流程,为临床医生节省宝贵的文献调研时间。然而,其性能表现高度依赖于具体的查询类型和所使用的搜索模式,不同模型各有优劣,且尚未展现出相对于人类专家在参考文献质量方面的稳定优势。更重要的是,模型可能产生虚假引用或提供不准确信息。因此,尽管人工智能工具展现了令人瞩目的辅助前景,但在儿科罕见病这一高风险领域,临床医生的专业判断和严密监督对于确保最终治疗决策的安全性与准确性仍然是不可或缺的。未来的研究可以扩展评估更多人工智能工具和疾病类型,并量化其带来的时间效益,以进一步明确其在支持临床决策中的最佳角色与实施方式。
原始出处:
Flamigni A, Zamagni G, Paternuosto G, Arbo A. Paediatric rare diseases: Can large language models assist off-label prescribing? Br J Clin Pharmacol. 2025;91(11):3201-3212. doi:10.1002/bcp.70168
本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言












#人工智能# #临床决策支持# #超说明书用药# #大型语言模型#
0 举报