【协和医学杂志】医疗领域聊天机器人的发展与应用:从传统方法到大语言模型

2025-11-22 协和医学杂志 协和医学杂志 发表于上海

本文从医疗应用的角度出发,系统梳理聊天机器人在医疗领域的技术路径及发展历程,总结其在不同医疗场景中的应用表现,并分析当前技术在实际临床应用中的效果与挑战,以期为后续研究提供理论支持。

随着人工智能的发展,聊天机器人逐渐从基于规则的简单系统,演变为能够理解和生成更自然化语言的智能系统[1]。大语言模型(LLM)的引入,进一步提升了聊天机器人的对话能力,使其能够处理更复杂、多样化的对话场景[2]。上述技术突破使得聊天机器人可进行更具个性化、动态化的交互,提升了用户体验,并逐渐在医疗领域发挥重要作用。

聊天机器人的医疗应用场景从早期的健康问答已拓展至疾病筛查、慢性病管理、心理支持、医学教育和临床培训等多个领域[3],不仅显著提高了医疗服务效率,也为患者带来了更加便利的医疗体验。此外,聊天机器人在缓解医疗资源紧张方面也展现出巨大潜力,特别是在初步筛查和远程健康咨询中,为医疗体系提供了强有力的技术支持[4]

本文从医疗应用的角度出发,系统梳理聊天机器人在医疗领域的技术路径及发展历程,总结其在不同医疗场景中的应用表现,并分析当前技术在实际临床应用中的效果与挑战,以期为后续研究提供理论支持,并为相关技术在医疗领域的广泛应用提供可行方案。

1 聊天机器人技术模式发展

在LLM出现之前,传统的聊天机器人主要分为如下3类:基于检索的聊天机器人、基于生成的聊天机器人以及基于混合方法的聊天机器人[5]

基于检索的聊天机器人通过关键词匹配或语义相似度算法在历史对话记录或预定义知识库中检索相近内容,以准确响应用户查询[6]

基于生成的聊天机器人可进一步分为流水线式生成和端到端式生成方法。前者通过对话理解、对话管理和回复生成的流水线方式理解对话、决策下一轮对话行为并生成合适的回复;后者则直接通过端到端的方式,基于用户查询生成回复[7]

而基于混合方式的聊天机器人结合检索和生成方式,既保证了信息的准确性,又可提供灵活的对话反馈,适用于复杂任务[8]

而随着LLM的出现,聊天机器人的架构逐渐趋于统一,即利用LLM自身强大的语言理解和生成能力,搭建端到端的生成式聊天机器人[5]。而在其中,我们可将基于LLM的聊天机器人大致分为:基于提示词工程的聊天机器人和基于微调的聊天机器人两类。前者通过设计提示词引导大模型进行角色扮演、复杂链式推理,以完成高质量对话[9];后者则通过在基础的大模型上进行领域微调,以适应特定领域的任务需求[10]。聊天机器人技术模式发展见图1。

图1 从统计语言模型到大语言模型的聊天机器人技术模式发展

2 医疗领域中的聊天机器人应用

随着聊天机器人的快速发展,其在医学诊断、干预、监测、咨询和教育等多个关键领域提供了便捷服务(图2),极大提升了医疗服务的效率和深度[11-12]

图片

图2 聊天机器人在不同医学领域中的应用分类

2.1 医学诊断对话系统

医学诊断对话系统旨在通过交互式对话获取患者的症状、体征、检查结果及相关医疗信息,基于医学知识库和智能算法为医生提供初步诊断建议、疾病可能性排序及后续检查或治疗方案,并为患者提供便捷的初步健康评估。

由于医学诊断过程涉及根据患者当前状态作出决策,并通过反馈不断优化诊断行为,因此,医学诊断对话系统通常使用任务导向型聊天机器人技术,通过强化学习进行对话调度,以提升对话的灵活性[13]。此外,医学诊断是一项高度依赖专业知识的复杂任务,对症状与疾病关系的深刻理解至关重要。医学诊断对话系统依托医学知识图谱,通过捕捉疾病与症状关系并结合强化学习技术,提升了诊断效率和准确性[14]

然而,传统的医学诊断对话系统存在对话路径固定、上下文理解能力有限、医学诊断能力不足、自然语言交互能力差的缺点[15]。而相比之下,基于LLM的聊天机器人通过多种技术手段实现了诊断服务的精确化与个性化。例如,Dou等[16]通过上下文学习和历史对话匹配,提升LLM在特定医疗场景的适应能力;Zhang等[17]开发搜索引擎自动提取外部知识并与LLM结合,增强了医疗决策的可解释性;Wang等[18]引入多专家代理诊断机制以模拟跨学科协作,提升了医学诊断的准确性和实时性;Li等[19]通过设计多角色医院代理框架以再现真实医院的诊疗流程,为复杂医疗场景提供了更全面的解决方案。基于LLM的聊天机器人通过技术创新改善了传统医学诊断对话系统的不足,为精准医疗和个性化诊断开辟了新路径。

在医学诊断对话系统的实际应用中,基于LLM的聊天机器人在多种疾病的筛查和诊断方面亦展现出卓越的效果。例如,Wang等[20]通过标准化提示设计显著提升了ChatGPT在轻度认知障碍筛查中的能力;Yang等[21]则在罕见病诊断中集成贝叶斯诊断方法开发RDmaster系统,在准确性方面超过了现有工具和模型;Song等[22]利用上下文多标记引擎成功诊断尘肺病;Tang等[23]通过自适应提问策略,增强了神经认知衰弱患者的病情识别能力;Zhang等[24]通过微调LLM,显著提高了高血压、糖尿病等24种慢性疾病的诊断精度。

医学诊断对话系统的发展正在深刻影响患者及其医疗体验。随着对话模式的演变,患者不再局限于传统的固定对话和有限互动,而是能够享受到更加灵活和个性化的医疗服务。通过结合知识图谱、图卷积网络、分层强化学习、LLM等方法,医学诊断对话系统显著提高了诊断的准确性、灵活性和效率,同时也提升了患者的整体医疗体验。

2.2 医学咨询对话系统

医学咨询对话系统旨在通过多轮对话解答患者日常健康问题,为患者提供专业的医学建议和指导[25]。相比医学诊断对话系统,医学咨询对话系统的重点在于为患者提供健康信息和建议,而不直接参与疾病的确诊过程。

为确保系统的专业性和准确性,医疗咨询对话系统通常利用问答型聊天机器人技术,通过从专业知识来源检索相关知识来回答用户的各类健康咨询。医疗咨询对话系统的知识来源通常包括医疗健康文本和医学知识图谱。基于医疗健康文本的系统通常利用开放领域问答技术和机器阅读理解技术,通过检索相关文献并从中抽取或生成答案[26-27];而基于医学知识图谱的系统则使用基于知识图谱的问答技术,通过分析实体及其关系,并结合推理算法,以增强对问题的理解深度,提供更精准的回答[28-29]

传统的医学咨询对话系统在面对复杂多变的患者问题时,存在医学知识库有限和信息检索模式有限的问题。随着LLM的发展,基于LLM的医学咨询对话系统展现出巨大潜力。LLM生成的咨询回复质量已接近人类咨询师水平[4]。然而,LLM可能会产生不准确或无关的回答,即幻觉问题[30],为解决这一问题,研究者引入检索增强生成技术,将LLM的生成能力和检索系统的信息检索能力相结合,以减少“幻觉现象”,确保医学信息的准确性[31]

在实际应用中,基于LLM的医学咨询对话系统已在多个医疗领域展现出广泛的应用前景,包括精神疾病咨询[32]、疟疾发热咨询[33]、头颈癌咨询[34]、炎症性肠病咨询[35]等。此外,针对全球新型冠状病毒疫情,聊天机器人在传播最新公共卫生信息、推动健康行为、缓解心理压力等方面发挥了重要作用[36]。世界卫生组织开发的多语言会话型聊天机器人,提供了实时、可靠的疫情信息,有效支持了疫情防控工作[37]

总体来看,医学咨询对话系统的技术进步正逐步改变传统的医疗服务模式。通过结合LLM、知识图谱及检索增强生成技术,医学咨询对话系统不仅提升了响应速度与准确性,且在理解和处理复杂医学问题方面取得了突破,为患者提供了更加便捷和专业的医疗咨询服务。

2.3 医学干预对话系统

医学干预对话系统旨在通过自动化的人机交互,为患者提供心理支持与治疗。这些系统基于对话技术,利用心理学原理设计的对话策略,提供非侵入性和高效的个性化治疗方案,逐渐获得了广泛关注与认可。

医学干预对话系统的核心在于精准识别并理解用户情感,提供快速响应与共情反馈,支持长期交互和情感疏导,提升即时互动质量。Zhou等[38]通过在大规模对话生成中引入情感分类模型,增强了系统捕捉和回应情绪状态的能力。当识别出患者的情绪状态时,Li等[39]通过结合心理学理论与差异化回复策略,显著提升了用户体验和满意度。同时,为支持长期交互,Tu等[40]利用个性化沟通策略和细粒度情感推断模型,提高了对话连贯性和患者的交互意愿。此外,Ghosh等[41]基于长短期记忆神经网络模型改善了系统的记忆能力,增强了用户的交互体验。

随着LLM的引入,医学干预对话系统在生成自然、共情回应方面取得重要突破。LLM通过大规模数据预训练,相较传统系统生成的回应更具共情力,在心理健康聊天机器人中表现尤为突出[42]。LLM系统能够通过多轮对话提供更深入的交流,增强心理干预效果[39]。此外,结合LLM和移动设备,医学干预对话系统在心理治疗干预方面表现出色[43]

在实际应用中,医学干预对话系统逐步展现出其在心理健康支持中的潜力,逐渐成为医学干预的重要工具[43]。通过提升对话策略的有效性,医学干预对话系统在治疗注意力缺陷与多动障碍患者方面取得了显著成效[44]。通过虚拟现实技术和心理学知识库相结合,医学干预对话系统可模拟人类心理治疗师,为患者提供心理支持[45]

医学干预对话系统的发展,尤其是基于LLM的技术,已成为改善患者心理健康的关键工具。通过优化情感识别、对话策略和长期交互能力,这些系统在心理干预和支持中展现出巨大应用潜力,未来有望在更广泛的医疗场景中得到应用和推广。

2.4 医学教育对话系统

在医学教育领域,聊天机器人逐渐成为提升临床技能训练和知识传递效率的重要工具。医学教育对话系统旨在整合准确医学信息和教育资源,通过虚拟患者的交互模式,辅助医学生深化对健康问题的理解及对医学知识的学习。

在模拟临床环境的过程中,虚拟患者系统能够提供全面的健康数据,并借助自然语言处理技术与学习者进行互动,以此提升学习者的医疗决策能力。随着技术的发展,从早期依赖规则驱动的用户模拟系统,到目前基于LLM的虚拟患者系统,医学教育对话系统实现了更加精确的患者行为模拟[46]。医学教育对话系统通过综合考虑患者的病情进展、治疗反应和个体差异,使其更加贴近实际医疗场景,有助于医学生临床决策能力的提升和问题解决能力的培养。

虚拟患者系统的核心功能在于理解问题并作出适当回应,及时干预和反馈是提升学习效果的关键[47]。例如,Campillos-Llanos等[48]开发的基于术语资源的虚拟患者对话系统,可处理多种医学专业和临床案例;Dolianiti等[49]针对血栓栓塞症开发的虚拟患者模型,突出了该系统在特定疾病训练中的应用价值。

基于LLM的聊天机器人,在医学教育中展现出更自然和灵活的交互体验。LLM可处理复杂的对话场景,提供更接近真实临床情况的学习环境。例如,Cook等[50]通过提示词工程优化ChatGPT来模拟患者-临床医生互动,提出虚拟患者系统用于医学教育;Grévisse等[51]基于LLM提出虚拟标准化病人模拟器RasPatient Pi,支持教师在特定场景下进行临床教学;Li等[52]通过结构化图记忆增强对话流程提出CureFun框架,利用LLM模拟患者角色,显著提升了临床医学教育中的模拟效果。

聊天机器人在医学教育领域的应用显著提升了学习者的临床技能和决策能力,通过虚拟患者模拟真实的临床场景,医学生能够在安全的环境中反复练习,从而提高诊断推理和沟通技巧。基于LLM的聊天机器人,凭借其强大的语言理解和生成能力,为医学教育提供了更加自然、个性化的学习体验,并通过实时反馈和复杂对话场景的模拟,增强了学习效果。

2.5 医学监测对话系统

医学监测对话系统旨在通过持续监测、记录和分析患者的重要体征和健康状况,实现对患者健康的动态管理。系统通过人机交互的方式提醒患者按时完成健康监测任务,并在检测到数据异常时发出预警,同时提供初步的诊断建议以支持医疗决策。

借助共情对话策略,该系统能够有效提升患者的治疗依从性,从而优化医疗服务效率与效果,为个性化健康管理和远程医疗提供重要支持。例如,Maharjan等[53]开发了一种基于智能扬声器的对话代理系统,利用语音记录监测精神病患者的症状和治疗效果,确保了数据采集的准确性和实时反馈。Lee等[54]设计了Dr.Youth,用于监控肥胖患者的体重变化,同时提供个性化的营养和活动计划。Kocabiyikoglu等[55]提出了基于智能手机的自然语言对话系统,协助管理医药处方,可提升医生开具处方的效率。Xu等[56]的双重流模型DFMed通过建模医疗实体的转换和监测医生对话行为,增强了复杂医疗对话流程的处理能力。Tayal等[57]的系统则帮助心力衰竭患者监测盐分摄入,通过个性化互动提供饮食建议,帮助控制病情。

传统任务型对话系统擅长精确控制流程和完成特定任务,尤其适合资源有限的环境。相比之下,基于LLM的医学监测对话系统凭借其强大的语言处理能力,能够生成更自然且符合上下文的响应,提供更全面的医学监测解决方案。随着互联网和人工智能技术的发展,此类系统正逐步与电子健康档案和远程医疗深度融合,为患者提供更加全面、便捷的健康服务。

2.6 医学多目标对话系统

医学多目标对话系统旨在应对现代医疗的复杂性与多样化需求,致力于通过整合诊断、健康咨询、干预、教育和监测等多重任务,为患者及医护人员提供全面、精准且高效的医疗信息和服务。对于患者,医学多目标对话系统可提供健康咨询、疾病教育和心理支持,提升健康素养与治疗依从性;对于医生,系统可辅助诊断、提供循证医学支持并优化诊疗流程;对于护士,系统可协助护理任务、监测患者状况并实时反馈。同时,系统可以整合监测与干预功能,实时采集和分析患者数据,提供个性化的健康管理方案。

通过多目标任务的协同处理,该系统在提升医疗质量、优化资源利用和改善健康结局方面具有重要价值。例如,Qiu等[58]提出的PsyChat聊天机器人,通过行为识别、咨询策略选择、输入处理等模块,模拟患者与心理咨询师的互动,实现了医学干预和咨询的多任务处理。Adikari等[59]设计的基于自然语言处理的同理心对话框架,则用于心理健康监测和干预。Compton等[60]开发的MEDCOD系统结合了病史采集和心理干预任务,展示了模块化系统的优势。

凭借LLM的技术优势,医学聊天机器人不仅能解析医疗文献,完成医学考试、轻问诊等任务,还能执行复杂的医学推理,如临床问诊和治疗方案推荐。例如,Lee等[61]探讨了GPT-4在提供医疗建议和辅助决策中的潜力;Li等[62]通过微调llama模型开发的Chatdoctor显著提高了中文医学问答的表现;而Singhal等[63]构建的Med-PaLM在美国医疗执照考试中达到了专家级水平。

针对医学多目标系统的评估也非常重要。Kanjee等[64]评估了GPT-4在医学诊断和咨询中的能力,展现其巨大潜力。Wang等[65]提出的中文医学基准测试CMB,旨在推动中国医学LLM的应用,特别是在中医领域的表现评估。Cai等[66]设计的MedBench测试则进一步揭示了中文医学LLM在知识和诊断精度上的不足。

传统聊天机器人擅长结构化处理和精确信息提取,但在对话灵活性上存在局限。相比之下,基于LLM的聊天机器人在生成自然、共情对话方面表现突出,尤其适用于个性化医学咨询和教育。随着多目标系统的不断进步,其不仅为患者提供了便捷的医疗助手,还为医疗专业人士提供了强大的辅助工具,预示着其在未来医疗中的重要作用。

3 问题与挑战

随着LLM的高速发展,其强大的语言理解及生成能力不仅让聊天机器人的对话更加灵活自然,同时极大地提升了机器人处理复杂任务的能力。医疗领域的聊天机器人也逐渐从单一任务系统向多任务综合型系统演进,同时完成医疗诊断、健康咨询、心理干预、健康监测等任务。未来,聊天机器人有望实现更高水平的自主学习能力,从而在个性化医疗服务和全生命周期健康管理中发挥关键作用[67]。然而在医疗领域,聊天机器人从技术层面到应用层面仍面临诸多亟待解决的挑战。

3.1 技术层面挑战

3.1.1 准确性和专业性

尽管LLM具备一定的医学常识,但其无论是在专业的医学知识储备还是在严肃的医学数值推理或知识推理方面均存在较大局限性。因此,聊天机器人在对话过程中可能生成不准确甚至错误的医学建议[68],严重限制了其在高难度、深度和实时性要求较高的医疗任务中的应用。如何有效提高聊天机器人的医学专业性及推理能力,已成为研究的核心难题。

3.1.2 多模态交互性

当前的聊天机器人主要依赖文本对话,而用户在实际的医疗场景对话中可能会使用涉及如文本、语音、图像、视频、组学数据等多模态医疗数据,如心电图、影像报告、伤口图片、运动视频等[69]。因此,未来如何实现多模态数据的高效整合与理解,并确保在交互中保持语义连贯性,将是提升系统实用性的关键技术方向。

3.2 应用层面挑战

3.2.1 用户依从与信任问题

尽管聊天机器人在某些方面优于传统医疗工具,但患者和医生对其建议的信任度仍然较低。一旦出现知识性错误或误导信息,患者的依从性可能显著下降,医生也可能质疑其可靠性[70]。此外,不同地区与年龄层用户对聊天机器人的接受程度存在显著差异:发达地区用户因技术普及率较高更易接受,而发展中地区用户则相对保守;年轻用户倾向于接受技术创新,而老年用户则因技术陌生感和操作复杂性存在较高门槛[71]。因此,提升聊天机器人的可信度和透明性,并针对不同用户群体优化设计,是提高其接受度与长期应用价值的关键挑战。

3.2.2 隐私保护与伦理问题

聊天机器人在处理用户数据时面临严峻的隐私与安全风险。尽管数据加密与匿名化技术逐渐成熟,但隐私泄露的可能性依然存在[68]。此外,医疗建议的错误可能导致严重后果,责任归属问题也需要得到明确界定[72]。因此,制定严格的监管政策和伦理标准,对于保障用户数据安全并维护系统可靠性具有重要意义。

4 小结与展望

聊天机器人技术,特别是基于LLM的聊天机器人,凭借其在自然语言处理、个性化交流及医疗知识整合方面的显著进步,已成为提升医疗服务质量和效率的重要工具。聊天机器人利用知识图谱、强化学习和LLM等技术,实现了从简单问答到复杂医学诊断、咨询、干预、监测、教育,再到多任务协同的跨越,但仍面临生成内容准确性、多模态可交互性等技术挑战。在实际应用方面,聊天机器人应遵守法律法规和伦理要求,以确保其使用的合规性和可靠性。

展望未来,从单一问答系统演进为多功能医疗助手,聊天机器人在医疗领域的应用将更加多元化,特别是在慢病管理、精神健康支持等方面发挥更大作用。通过深化人机协作、优化功能拓展,以及加强跨学科研究,聊天机器人将促进医患关系的改善,推动医疗服务向更加智能化、个性化方向发展。同时,未来研究需更全面地涵盖新兴技术、未被充分探索的子领域,并通过实证研究验证聊天机器人的长期效果与影响,以期为医疗领域的人工智能应用提供更加坚实的研究基础和实践指导。

参考文献

[1]Wang H R, Wang L Z, Du Y M, et al. A survey of the evolution of language model-based dialogue systems: data, task and models[DB/OL]. (2025-07-20)[2025-10-15]. https://arxiv.org/abs/2311.16789.

[2]Wu T Y, He S Z, Liu J P, et al. A brief overview of Chat GPT: the history, status quo and potential future development[J]. IEEE/CAA J Autom Sin, 2023, 10(5): 1122-1136.

[3]Thirunavukarasu A J, Ting D S J, Elangovan K, et al. Large language models in medicine[J]. Nat Med, 2023, 29(8): 1930-1940.

[4]Bao Z J, Chen W, Xiao S Z, et al. DISC-MedLLM: bridging general large language models and real-world medical consultation[DB/OL]. (2023-08-28)[2025-10-15]. https://arxiv.org/abs/2308.14346.

[5]Zhu Y, Feng S, Wang D L, et al. Knowledge-enhanced interactive matching network for multi-turn response selection in medical dialogue systems[C]//Database Systems for Advanced Applications. Cham: Springer International Publishing, 2022: 255-262.

[6]Weld H, Huang X Q, Long S Q, et al. A survey of joint intent detection and slot filling models in natural language understanding[J]. ACM Comput Surv, 2022, 55(8): 1-38.

[7]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Confer-ence on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[8]Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. J Mach Learn Res, 2020, 21(1): 140.

[9]Rader B, Hswen Y, Brownstein J S. Further reflections on the use of large language models in Pediatrics-Reply[J]. JAMA Pediatr, 2024, 178(6): 628-629.

[10]Yang S H, Zhao H J, Zhu S B, et al. Zhongjing: enhancing the Chinese medical capabilities of large language model through expert feedback and real-world multi-turn dialogue[C]//Proceedings of the Thirty-Eighth AAAI Conference on Artificial Intelligence and Thirty-Sixth Conference on Innovative Applications of Artificial Intelligence and Fourteenth Symposium on Educational Advances in Artificial Intelligence. Menlo Park, Calif.: AAAI Press, 2024: 19368-19376.

[11]Shi X M, Liu Z M, Du L, et al. Medical dialogue: a survey of categories, methods, evaluation and challenges[DB/OL]. (2024-05-17)[2025-10-15]. https://arxiv.org/abs/2405.10630.

[12]Grassini E, Buzzi M, Leporini B, et al. A systematic review of chatbots in inclusive healthcare: insights from the last 5 years[J]. Univers Access Inf Soc, 2025, 24(1): 195-203.

[13]Liao K, Liu Q L, Wei Z Y, et al. Task-oriented dialogue system for automatic disease diagnosis via hierarchical reinforcement learning[DB/OL]. (2020-04-29)[2025-10-15]. https://arxiv.org/abs/2004.14254v1.

[14]Zhao X Y, Chen L W, Chen H H. A weighted hetero-geneous graph-based dialog system[J]. IEEE Trans Neural Netw Learn Syst, 2023, 34(8): 5212-5217.

[15]Savage T, Nayak A, Gallo R, et al. Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine[J]. NPJ Digit Med, 2024, 7(1): 20.

[16]Dou C F, Jin Z, Jiao W P, et al. PlugMed: improving specificity in patient-centered medical dialogue generation using in-context learning[DB/OL]. (2023-10-18)[2025-10-15]. https://arxiv.org/abs/2305.11508.

[17]Zhang H D, Li J H, Wang Y C, et al. Integrating automated knowledge extraction with large language models for explainable medical decision-making[C]//2023 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Piscataway, NJ: IEEE Press, 2023: 1710-1717.

[18]Wang H C, Zhao S D, Qiang Z W, et al. Beyond direct diagnosis: LLM-based multi-specialist agent consultation for automatic diagnosis[DB/OL]. (2024-01-29)[2025-10-15]. https://arxiv.org/abs/2401.16107.

[19]Li J K, Wang S Y, Zhang M, et al. Agent hospital: a simulacrum of hospital with evolvable medical agents[DB/OL]. (2024-05-05)[2025-10-15]. https://arxiv.org/abs/2405.02957v1.

[20]Wang C Y, Liu S R, Li A Q, et al. Text dialogue analysis for primary screening of mild cognitive impairment: development and validation study[J]. J Med Internet Res, 2023, 25: e51501.

[21]Yang J, Shu L Q, Han M Y, et al. RDmaster: a novel phenotype-oriented dialogue system supporting differential diagnosis of rare disease[J]. Comput Biol Med, 2024, 169: 107924.

[22]Song M Y, Wang J R, Yu Z H, et al. PneumoLLM: harnessing the power of large language model for pneumoconiosis diagnosis[J]. Med Image Anal, 2024, 97: 103248.

[23]Tang F Y, Uchendu I, Wang F, et al. Scalable diagnostic screening of mild cognitive impairment using AI dialogue agent[J]. Sci Rep, 2020, 10(1): 5732.

[24]Zhang S N, Song J. A chatbot based question and answer system for the auxiliary diagnosis of chronic diseases based on large language model[J]. Sci Rep, 2024, 14(1): 17118.

[25]Shi X M, Liu Z M, Wang C, et al. MidMed: towards mixed-type dialogues for medical consultation[DB/OL]. (2023-06-14)[2025-10-15]. https://arxiv.org/abs/2306.02923.

[26]Athota L, Shukla V K, Pandey N, et al. Chatbot for healthcare system using artificial intelligence[C]//2020 8th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO). Piscataway, NJ: IEEE Press, 2020: 619-622.

[27]Zhu M, Ahuja A, Wei W, et al. A hierarchical attention retrieval model for healthcare question answering[C]//The World Wide Web Conference. New York: Association for Computing Machinery, 2019: 2472-2482.

[28]Qiu Y Q, Li M L, Wang Y Z, et al. Hierarchical type constrained topic entity detection for knowledge base question answering[C]//Companion Proceedings of the Web Conference 2018. Lyon: International World Wide Web Conferences Steering Committee, 2018: 35-36.

[29]Sima A C, Mendes De Farias T, Anisimova M, et al. Bio-SODA UX: enabling natural language question answering over knowledge graphs with user disambiguation[J]. Distrib Parallel Databases, 2022, 40(2/3): 409-440.

[30]Huang L, Yu W J, Ma W T, et al. A survey on hallucination in large language models: principles, taxono-my, challenges, and open questions[J]. ACM Trans Inf Syst, 2023, 43(2): 1-55.

[31]Ke Y H, Jin L Y, Elangovan K, et al. Development and testing of retrieval augmented generation in large language models--a case study report[DB/OL]. (2023-06-14)[2025-10-15]. https://arxiv.org/abs/2402.01733.

[32]Chen S Y, Wu M Y, Zhu K Q, et al. LLM-empowered chatbots for psychiatrist and patient simulation: application and evaluation[DB/OL]. (2023-05-23)[2025-10-15]. https://arxiv.org/abs/2305.13614.

[33]Oguntimilehin A, Babalola G O, Akinduyite C O, et al. A machine learning driven malaria fever medical consultation chatbot[C]//2024 International Conference on Science, Engineering and Business for Driving Sustainable Develop-ment Goals (SEB4SDG). Piscataway, NJ: IEEE Press, 2024: 1-6.

[34]Kuᶊcu O, Pamuk A E, Sütay Süslü N, et al. Is ChatGPT accurate and reliable in answering questions regarding head and neck cancer?[J]. Front Oncol, 2023, 13: 1256459.

[35]Zand A, Sharma A, Stokes Z, et al. An exploration into the use of a chatbot for patients with inflammatory bowel diseases: retrospective cohort study[J]. J Med Internet Res, 2020, 22(5): e15589.

[36]Miner A S, Laranjo L, Kocaballi A B. Chatbots in the fight against the COVID-19 pandemic[J]. NPJ Digit Med, 2020, 3(1): 65.

[37]World Health Organization. Chatbots against COVID-19: using chatbots to answer questions on COVID-19 in the user's language[EB/OL]. (2022-05-24)[2025-10-15]. https://www.who.int/news-room/feature-stories/detail/scicom-compilation-chatbot.

[38]Zhou H, Huang M L, Zhang T Y, et al. Emotional chatting machine: emotional conversation generation with internal and external memory[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence. Menlo Park, Calif.: AAAI Press, 2018: 730-738.

[39]Li Y R, Li K, Ning H K, et al. Towards an online empathetic chatbot with emotion causes[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: Association for Computing Machinery, 2021: 2041-2045.

[40]Tu Q, Li Y R, Cui J W, et al. MISC: a mixed strategy-aware model integrating comet for emotional support conversation[DB/OL]. (2022-03-31)[2025-10-15]. https://arxiv.org/abs/2203.13560.

[41]Ghosh S, Chollet M, Laksana E, et al. Affect-LM: a neural language model for customizable affective text generation[DB/OL]. (2017-04-22)[2025-10-15]. https://arxiv.org/abs/1704.06851.

[42]Izumi K, Tanaka H, Shidara K, et al. Response generation for cognitive behavioral therapy with large language models: comparative study with Socratic questioning[DB/OL]. (2024-01-29)[2025-10-15]. https://arxiv.org/abs/2401.15966.

[43]Nie J P, Shao H Y, Fan Y, et al. LLM-based conversational AI therapist for daily functioning screening and psychotherapeutic intervention via everyday smart devices[DB/OL]. (2024-03-16)[2025-10-15]. https://doi.org/10.48550/arXiv.2403.10779.

[44]Zhang L G, Jin R Z. Attentive goal-based dialogue system for ADHD behavior treatment[C]//Proceedings of the 2020 4th International Conference on Computer Science and Artificial Intelligence. New York: Association for Computing Machinery, 2020: 1-7.

[45]Trappey A J C, Lin A P C, Hsu K Y K, et al. Development of an empathy-centric counseling chatbot system capable of sentimental dialogue analysis[J]. Processes, 2022, 10(5): 930.

[46]Qiu J N, Lam K, Li G H, et al. LLM-based agentic systems in medicine and healthcare[J]. Nat Mach Intell, 2024, 6(12): 1418-1420.

[47]Lee J, Kim H, Kim K H, et al. Effective virtual patient simulators for medical communication training: a systematic review[J]. Med Educ, 2020, 54(9): 786-795.

[48]Campillos-Llanos L, Thomas C, Bilinski , et al. Designing a virtual patient dialogue system based on terminology-rich resources: challenges and evaluation[J]. Nat Lang Eng, 2020, 26(2): 183-220.

[49]Dolianiti F, Tsoupouroglou I, Antoniou P, et al. Chatbots in healthcare curricula: the case of a conversational virtual patient[C]//Brain Function Assessment in Learning. Cham: Springer International Publishing, 2020: 137-147.

[50]Cook D A. Creating virtual patients using large language models: scalable, global, and low cost[J]. Med Teach, 2025, 47(1): 40-42.

[51]Grévisse C. RasPatient Pi: a low-cost customizable LLM-based virtual standardized patient simulator[C]//Applied Informatics. Cham: Springer Nature Switzerland, 2025: 125-137.

[52]Li Y Z, Zeng C, Zhong J L, et al. Leveraging large language model as simulated patients for clinical education[DB/OL]. (2024-04-25)[2025-10-15]. https://doi.org/10.48550/arXiv.2404.13066.

[53]Maharjan R, Bækgaard P, Bardram J E. “Hear me out”: smart speaker based conversational agent to monitor symptoms in mental health[C]//Adjunct Proceedings of the 2019 ACM International Joint Conference on Pervasive and Ubiquitous Computing and Proceedings of the 2019 ACM International Symposium on Wearable Computers. New York: Association for Computing Machinery, 2019: 929-933.

[54]Lee J Y, Kim J Y, You S J, et al. Development and usability of a life-logging behavior monitoring application for obese patients[J]. J Obes Metab Syndr, 2019, 28(3): 194-202.

[55]Kocabiyikoglu A C, Portet F, Babouchkine J M, et al. Spoken dialogue system for medical prescription acquisition on smartphone: development, corpus and evaluation[DB/OL]. (2023-11-06)[2025-10-15]. https://doi.org/10.48550/arXiv.2311.03510.

[56]Xu K S, Hou W J, Cheng Y, et al. Medical dialogue generation via dual flow modeling[DB/OL]. (2023-05-29)[2025-10-15]. https://arxiv.org/abs/2305.18109.

[57]Tayal A, Di Eugenio B, Salunke D, et al. A neuro-symbolic approach to monitoring salt content in food[DB/OL]. (2024-04-01)[2025-10-15]. https://arxiv.org/abs/2404.01182.

[58]Qiu H C, Li A Q, Ma L Z, et al. PsyChat: a client-centric dialogue system for mental health support[DB/OL]. (2024-03-20)[2025-10-15]. https://arxiv.org/abs/2312.04262.

[59]Adikari A, De Silva D, Moraliyage H, et al. Empathic conversational agents for real-time monitoring and co-facilitation of patient-centered healthcare[J]. Future Gener Comput Syst, 2022, 126: 318-329.

[60]Compton R, Valmianski I, Deng L, et al. MEDCOD: a medically-accurate, emotive, diverse, and controllable dialog system[J]. Proc Mach Learn Health, 2021, 158: 110-129.

[61]Lee P, Bubeck S, Petro J. Benefits, limits, and risks of GPT-4 as an AI chatbot for medicine[J]. N Engl J Med, 2023, 388(13): 1233-1239.

[62]Li Y X, Li Z H, Zhang K, et al. ChatDoctor: a medical chat model fine-tuned on a large language model meta-AI (LLaMA) using medical domain knowledge[J]. Cureus, 2023, 15(6): e40895.

[63]Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.

[64]Kanjee Z, Crowe B, Rodman A. Accuracy of a generative artificial intelligence model in a complex diagnostic challenge[J]. JAMA, 2023, 330(1): 78-80.

[65]Wang X D, Chen G H, Song D J, et al. CMB: a comprehensive medical benchmark in Chinese[DB/OL]. (2024-04-04)[2025-10-15]. https://arxiv.org/abs/2308.08833.

[66]Cai Y, Wang L L, Wang Y, et al. MedBench: a large-scale Chinese benchmark for evaluating medical large language models[J]. Proc AAAI Conf Artif Intell, 2024, 38(16): 17709-17717.

[67]Zheng Y X, Gan W S, Chen Z F, et al. Large language models for medicine: a survey[J]. Int J Mach Learn Cybern, 2025, 16(2): 1015-1040.

[68]Omiye J A, Gui H W, Rezaei S J, et al. Large language models in medicine: the potentials and pitfalls: a narrative review[J]. Ann Intern Med, 2024, 177(2): 210-220.

[69]AlSaad R, Abd-Alrazaq A, Boughorbel S, et al. Multimodal large language models in health care: applications, challenges, and future outlook[J]. J Med Internet Res, 2024, 26: e59505.

[70]Clusmann J, Kolbinger F R, Muti H S, et al. The future landscape of large language models in medicine[J]. Commun Med (Lond), 2023, 3(1): 141.

[71]Gumilar K E, Indraprasta B R, Hsu Y C, et al. Disparities in medical recommendations from AI-based chatbots across different countries/regions[J]. Sci Rep, 2024, 14(1): 17052.

[72]Wang D D, Zhang S Q. Large language models in medical and healthcare fields: applications, advances, and challenges[J]. Artif Intell Rev, 2024, 57(11): 299.

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2290273, encodeId=445022902e376, content=<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a> <a href='/topic/show?id=c9c113308e13' target=_blank style='color:#2F92EE;'>#聊天机器人#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=93, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能), TopicDto(id=133087, encryptionId=c9c113308e13, topicName=聊天机器人)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sun Nov 23 18:10:09 CST 2025, time=2025-11-23, status=1, ipAttribution=上海)]
    2025-11-23 梅斯管理员 来自上海

相关资讯

大型语言模型在诊断罕见血液疾病中的性能及其诊断输出对医师的影响,一项回顾性与前瞻性结合的研究

本研究表明新一代大型语言模型在无需特定微调的情况下,仅基于文本入院记录即可对罕见血液疾病提供具有临床参考价值的诊断建议,其诊断准确性接近人类医师水平。

ESMO Open:基于多模态人工智能的鼻咽癌远处转移风险分层

虽然世界卫生组织亚型系统在鼻咽癌临床分类中广泛使用,但越来越多研究表明当前世界卫生组织分类在预测化疗和放疗结局方面存在不足。

基于人工智能的院感手卫生质量控制研究

UniFormerV2模型在手卫生步骤识别上准确性高于 CNN 架构模型,外部验证效果良好,有助于医疗机构优化手卫生管理流程,对改善医疗质量、保障患者安全意义重大。

European Journal of Cancer:诊断罕见皮肤肿瘤的艺术,DL-CNN能否提高皮肤科医生的诊断准确性

现有市场批准的DL-CNN在罕见皮肤肿瘤诊断中性能中等,无法实质性提升皮肤科医生的整体准确率,其预测仅在某些亚型中具有辅助价值。

基于回归/AI的预测模型质量、偏倚风险与适用性评价工具更新版:PROBAST+AI中文解读

本文对PROBAST+AI工具的开发过程、评价内容及使用方法进行解读,以期为国内学者提供新的借鉴和帮助。

读书报告 |人工智能应用的临床教学督导策略

本文同时提及AI的两种使用模式,分别为适合用于高风险诊断任务的“半人马”模式,即人类主导、AI辅助执行的工作模式。

AHA 2025 | 专访丁耀东医生:人工智能认知训练开启冠心病合并轻度认知障碍“心脑同治” 新路径

梅斯医学特邀丁耀东医生就该研究的设计、发现、临床转化前景及未来方向进行了深入解读。

NBT | 聊天就能分析基因表达?创新多模态AI模型通过对话轻松实现单细胞RNA测序数据解读

为促进scRNA-seq数据分析,奥地利维也纳医科大学的研究团队开发了一款基于人工智能的基因表达分析工具CellWhisperer,利用自然语言技术通过聊天交互方式实现scRNA-seq数据解读。

告别 “估摸着吃”!115 种食品数字化图谱问世,9 大类食物含小中大三种份量

本文介绍了首个针对中亚地区的数字视觉食品图谱,支持精准饮食评估与营养研究。

International Journal of Surgery:人工智能护航食管切除术!实时监测喉返神经过度牵拉,提前预警避免术后麻痹

人工智能系统在10例手术视频评估中正确识别84.4%的意外神经牵拉场景,过度牵拉风险值与牵拉强度呈正相关,并在代表性病例中早于神经完整性监测仪振幅下降前发出预警,显示其具备实时检测过度牵拉的潜力。