J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性
2025-05-21 网络 网络 发表于上海
随着 ChatGPT 语言支持和医学知识的提高,它可以更有效地用于教育过程。
人工智能,尤其是大型语言模型(LLMs),正深刻影响医学领域。AI模型的快速发展为医学教育开辟新路径,包括智能应答咨询、医学知识整合及临床决策支持。以OpenAI(美国加州旧金山)开发的ChatGPT为例,其2022年发布的3.5版本和2023年升级的4.0版本,在医学教育个性化资源获取方面展现显著潜力,目前已有研究评估其在医学考试与临床推理中的表现。在皮肤科领域,ChatGPT可应用于患者教育、诊疗决策辅助及远程医疗,但相关循证研究仍有限。尤其缺乏土耳其语皮肤科场景下的系统性评估。
J Cosmet Dermatol最新的一篇研究报告,本研究首次通过皮肤科住院医师考题,对比分析ChatGPT-3.5/4.0与不同年资医师在诊断推理、治疗决策等方面的表现,旨在揭示AI在医学教育中的整合潜力与局限性。
研究者命定了100个问题,并将这100个问题分成四组,每组25个问题。同样的问题也被施加到ChatGPT3.5和4.0版本。研究者并根据皮肤科住院医师年资的分类:一年级住院0-12个月,二年级12-24个月,三年级24-36个月,四年级超过36个月。研究者共招募 12 名一年级、5 名二年级、5 名三年级和 3 名四年级住院医师参与这项研究。各组在标准化监考环境下完成对应年资的25道五选一测试。在2025年1月前瞻性研究中,同步评估ChatGPT-3.5/4.0土耳其语应答表现,结果与住院医师成绩对比。结果显示,ChatGPT 3.5表现不佳,尤其是与高级住院医师相比。例如,二年级(p = 0.038)、三年级(p = 0.041)和四年级(p = 0.020)住院医师的得分明显高于 ChatGPT 3.5 的得分。ChatGPT 4.0与一年级和三年级的高级住院医师相比表现相似,但与二年级(p= 0.037)和四年级高级住院医师(p = 0.029)相比表现更差。 随着资历和考试难度的增加,两个版本的得分都较低。ChatGPT 3.5通过了一年级和二年级的考试,但没有通过三年级和四年级的考试。ChatGPT 4.0通过了第一年级、二年级和三年级的考试,但在四年级的考试中失败了。这些研究结果表明,ChatGPT是不等同于高级住院医师,尤其是在需要高级知识的科目上,而 4.0 版的表现则优于 3.5 版。
综上所述,未来,随着 ChatGPT 语言支持和医学知识的提高,它可以更有效地用于教育过程。
原始出处:
Göçer Gürok N, Öztürk S. The Performance of AI in Dermatology Exams: The Exam Success and Limits of ChatGPT. J Cosmet Dermatol. 2025 May;24(5):e70244. doi: 10.1111/jocd.70244. PMID: 40387311.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言

#人工智能# #chatGPT#
24