J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性

2025-05-21 网络 网络 发表于上海

随着 ChatGPT 语言支持和医学知识的提高,它可以更有效地用于教育过程。

人工智能,尤其是大型语言模型(LLMs),正深刻影响医学领域。AI模型的快速发展为医学教育开辟新路径,包括智能应答咨询、医学知识整合及临床决策支持。以OpenAI(美国加州旧金山)开发的ChatGPT为例,其2022年发布的3.5版本和2023年升级的4.0版本,在医学教育个性化资源获取方面展现显著潜力,目前已有研究评估其在医学考试与临床推理中的表现。在皮肤科领域,ChatGPT可应用于患者教育、诊疗决策辅助及远程医疗,但相关循证研究仍有限。尤其缺乏土耳其语皮肤科场景下的系统性评估。

J Cosmet Dermatol最新的一篇研究报告,本研究首次通过皮肤科住院医师考题,对比分析ChatGPT-3.5/4.0与不同年资医师在诊断推理、治疗决策等方面的表现,旨在揭示AI在医学教育中的整合潜力与局限性。

研究者命定了100个问题,并将这100个问题分成四组,每组25个问题。同样的问题也被施加到ChatGPT3.5和4.0版本。研究者并根据皮肤科住院医师年资的分类:一年级住院0-12个月,二年级12-24个月,三年级24-36个月,四年级超过36个月。研究者共招募 12 名一年级、5 名二年级、5 名三年级和 3 名四年级住院医师参与这项研究。各组在标准化监考环境下完成对应年资的25道五选一测试。在2025年1月前瞻性研究中,同步评估ChatGPT-3.5/4.0土耳其语应答表现,结果与住院医师成绩对比。结果显示,ChatGPT 3.5表现不佳,尤其是与高级住院医师相比。例如,二年级(p = 0.038)、三年级(p = 0.041)和四年级(p = 0.020)住院医师的得分明显高于 ChatGPT 3.5 的得分。ChatGPT 4.0与一年级和三年级的高级住院医师相比表现相似,但与二年级(p= 0.037)和四年级高级住院医师(p = 0.029)相比表现更差。 随着资历和考试难度的增加,两个版本的得分都较低。ChatGPT 3.5通过了一年级和二年级的考试,但没有通过三年级和四年级的考试。ChatGPT 4.0通过了第一年级、二年级和三年级的考试,但在四年级的考试中失败了。这些研究结果表明,ChatGPT是不等同于高级住院医师,尤其是在需要高级知识的科目上,而 4.0 版的表现则优于 3.5 版。

综上所述,未来,随着 ChatGPT 语言支持和医学知识的提高,它可以更有效地用于教育过程。

原始出处:

Göçer Gürok N, Öztürk S. The Performance of AI in Dermatology Exams: The Exam Success and Limits of ChatGPT. J Cosmet Dermatol. 2025 May;24(5):e70244. doi: 10.1111/jocd.70244. PMID: 40387311.

相关资料下载:
[AttachmentFileName(sort=100, fileName=J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性)] GetArticleByIdResponse(id=1c068e83827e, projectId=1, sourceId=null, title=J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性, articleFrom=网络, journalId=11903, copyright=转发, creationTypeList=null, summary=随着 ChatGPT 语言支持和医学知识的提高,它可以更有效地用于教育过程。, cover=https://img.medsci.cn/20220801/1659317464531_5552845.jpg, authorId=0, author=, originalUrl=, linkOutUrl=, content=<p><span style="color: #212121;">人工智能,尤其是大型语言模型(LLMs),正深刻影响医学领域。AI模型的快速发展为医学教育开辟新路径,包括智能应答咨询、医学知识整合及临床决策支持。以OpenAI(美国加州旧金山)开发的ChatGPT为例,其2022年发布的3.5版本和2023年升级的4.0版本,在医学教育个性化资源获取方面展现显著潜力,目前已有研究评估其在医学考试与临床推理中的表现。在<a href="https://www.medsci.cn/topic/show?id=e738e2080b4">皮肤科</a>领域,ChatGPT可应用于患者教育、<a href="https://www.medsci.cn/guideline/search?keyword=%E8%AF%8A%E7%96%97">诊疗</a>决策辅助及远程医疗,但相关循证研究仍有限。尤其缺乏土耳其语皮肤科场景下的系统性评估。</span></p> <p><span style="color: #212121;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20250520/1747748244020_8439950.png" /></span></p> <p><span style="color: #212121;">J Cosmet Dermatol最新的一篇研究报告,本研究首次通过皮肤科住院医师考题,对比分析ChatGPT-3.5/4.0与不同年资医师在<a href="https://www.medsci.cn/guideline/list.do?q=%E8%AF%8A%E6%96%AD">诊断</a>推理、治疗决策等方面的表现,旨在揭示AI在医学教育中的整合潜力与局限性。</span></p> <p>研究者命定了100个问题,并将这100个问题分成四组,每组25个问题。同样的问题也被施加到ChatGPT3.5和4.0版本。研究者并根据皮肤科住院医师年资的分类:一年级住院0-12个月,二年级12-24个月,三年级24-36个月,四年级超过36个月。研究者共招募&nbsp;12 名一年级、5 名二年级、5 名三年级和 3 名四年级住院医师参与这项研究。各组在标准化监考环境下完成对应年资的25道五选一测试。在2025年1月前瞻性研究中,同步评估ChatGPT-3.5/4.0土耳其语应答表现,结果与住院医师成绩对比。结果显示,ChatGPT 3.5表现不佳,尤其是与高级住院医师相比。例如,二年级(p = 0.038)、三年级(p = 0.041)和四年级(p = 0.020)住院医师的得分明显高于 ChatGPT 3.5 的得分。ChatGPT 4.0与一年级和三年级的高级住院医师相比表现相似,但与二年级(p= 0.037)和四年级高级住院医师(p&thinsp;=&thinsp;0.029)相比表现更差。&nbsp;随着资历和考试难度的增加,两个版本的得分都较低。ChatGPT 3.5通过了一年级和二年级的考试,但没有通过三年级和四年级的考试。ChatGPT 4.0通过了第一年级、二年级和三年级的考试,但在四年级的考试中失败了。这些研究结果表明,ChatGPT是不等同于高级住院医师,尤其是在需要高级知识的科目上,而 4.0 版的表现则优于 3.5 版。</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20250520/1747748244040_8439950.png" /></p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20250520/1747748244057_8439950.png" /></p> <p>综上所述,未来,随着 ChatGPT 语言支持和医学知识的提高,它可以更有效地用于教育过程。</p> <p><span style="color: #333333; font-size: 12px;">原始出处:</span></p> <p><span style="color: #333333; font-size: 12px;">G&ouml;&ccedil;er G&uuml;rok N, &Ouml;zt&uuml;rk S. The Performance of AI in Dermatology Exams: The Exam Success and Limits of ChatGPT. J Cosmet Dermatol. 2025 May;24(5):e70244. doi: 10.1111/jocd.70244. PMID: 40387311.</span></p>, belongTo=, tagList=[TagDto(tagId=8461, tagName=人工智能), TagDto(tagId=467561, tagName=chatGPT)], categoryList=[CategoryDto(categoryId=28, categoryName=整形美容, tenant=100), CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=793, appHits=11, showAppHits=0, pcHits=37, showPcHits=782, likes=0, shares=4, comments=1, approvalStatus=1, publishedTime=Wed May 21 19:02:00 CST 2025, publishedTimeString=2025-05-21, pcVisible=1, appVisible=1, editorId=6556111, editor=整形科新前沿, waterMark=0, formatted=0, deleted=0, version=3, createdBy=d3b78439950, createdName=布兜小吴, createdTime=Tue May 20 21:37:36 CST 2025, updatedBy=92910, updatedName=rayms, updatedTime=Wed May 21 19:02:58 CST 2025, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=100, fileName=J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性)], guideDownload=1, surveyId=null, surveyIdStr=null, surveyName=null, pushMsXiaoZhi=true, qaList=[{id=405333, articleId=1c068e83827e, userName=rayms, question=研究结果对未来的医学教育有何启示?, answer=研究结果表明,随着ChatGPT语言支持和医学知识的提高,它可以在未来更有效地用于医学教育过程。, clickNum=0, type=article, createdAt=1747825403757, updatedAt=1747825403757}, {id=405335, articleId=1c068e83827e, userName=rayms, question=研究中ChatGPT 3.5和4.0的土耳其语应答表现如何?, answer=在2025年1月的前瞻性研究中,ChatGPT 3.5和4.0的土耳其语应答表现被评估并与住院医师的成绩进行了对比。, clickNum=0, type=article, createdAt=1747825403757, updatedAt=1747825403757}])
J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2266064, encodeId=0ec22266064a9, content=<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a> <a href='/topic/show?id=c751105068f0' target=_blank style='color:#2F92EE;'>#chatGPT#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=24, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=105068, encryptionId=c751105068f0, topicName=chatGPT), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed May 21 19:02:58 CST 2025, time=2025-05-21, status=1, ipAttribution=上海)]
    2025-05-21 梅斯管理员 来自上海

相关资讯

European Radiology:人工智能在磁共振成像中预测直肠癌患者淋巴结转移的mate分析

人工智能(AI)最近已成为医学影像学领域中一种很有前景的工具,特别是那些针对 MRI 数据开发的人工智能技术,已显示出在识别可能表明转移性淋巴结的细微影像学特征方面的潜力。

IAPRD 2025 | 对话Malaguti Maria-Chiara 教授:人工智能在临床研究中的应用及发展

Malaguti Maria-Chiara 教授见解深入且极具前瞻性,从人工智能在临床研究的应用突破,到技术落地的系统策略,再到面临的多重挑战及未来患者护理的创新方向,勾勒出人工智能赋能医疗的全景图。

European Radiology:人工智能助力儿科骨折诊断!真实临床验证提升急诊诊断准确性

儿科骨折与成人骨折有显著差异,这取决于儿童的年龄和骨骼成熟程度。儿童特有的甚至是特定的骨折、类似撕脱伤的骨核以及看似骨折线的生长板,都给正确诊断带来了挑战。

读书报告 | 人工智能(智能体)将如何改变癌症研究与肿瘤学

AI和智能体正推动肿瘤学向数据驱动、动态适应、高度个性化等方向变革。未来,AI可能成为肿瘤诊疗的“核心协作者”,但需与临床医生、生物学家和伦理学家紧密合作,确保技术真正服务于患者需求。

【神麻人智】基于人工智能的围术期目标导向疗法降低肺部手术患者术中低血压及肾功能衰竭发生率的初步研究

本研究旨在探讨:与常规管理相比,基于人工智能的目标导向治疗能否在单肺通气患者中降低IOH的发生率、持续时间和严重程度,并可能减少术后AKI及其他并发症的风险。