Radiology:使用手X线片的儿童骨龄深度学习模型评估

2023-01-24 shaosai MedSci原创 发表于陕西省

放射学中DL的最早应用之一是预测小儿骨龄,这是一项临床上重要但单调的任务。

尽管人工智能(AI)受到放射科医生的热烈欢迎,但事实证明,深度学习(DL)算法容易受到各种各样因素的影响限制了进一步的临床应用。一个缺陷是缺乏通用性,在一家医院或环境的图像上训练的算法,在不同医院的图像上测试时性能会下降。第二个隐患是偏见,即一个算法在一组病人身上的表现比另一组更好,这可能会使预先存在的医疗保健差异永久化。这些隐患威胁着人工智能的安全和公平使用。

放射学中DL的最早应用之一是预测小儿骨龄,这是一项临床上重要但单调的任务。尽管作为2017年RSNA儿科骨龄挑战赛的一部分,开发了高性能的骨龄DL算法,获胜的算法与放射科医生相比实现了约4.3个月的平均绝对差异(MAD),但它们对不同外部人群的普遍性尚未得到评估。此外,骨龄算法的偏差也没有得到评估,这一点尤其重要,因为广泛使用的Greulich和Pyle骨龄标准最初是在20世纪30年代和40年代从同质的白人儿童群体中制定的,可能并不适用于其他种族或民族的儿童或当代人群。

近日,发表在Radiology杂志的一项研究以外部测试集与内部验证集的性能和不同人口群体之间的性能差异为标准,量化了骨龄DL模型的通用性和偏差,为该技术的进一步广泛应用铺平了道路。

本项研究使用2017年RSNA儿科骨龄挑战赛的获胜DL模型对来自美国两家医院的12611张儿科手部X光片进行了回顾性评估和训练。2021年9月至2021年12月,在内部验证集和外部测试集上对DL模型进行了测试,测试的对象是具有不同人口代表性的儿科手部X光片。报告真实骨龄的图像被纳入研究。计算了每一组的真实骨龄和模型预测骨龄之间的平均绝对差异(MAD)。通过使用t检验比较内部和外部评估集的MAD来评估普适性。通过使用t检验或方差分析和χ2检验,分别比较人口统计学组之间的MAD和临床意义上的错误率(改变临床诊断的错误率)来评估偏差(统计学意义上的差异定义为P < .05)。

内部验证集有1425人的图像(773名男孩),外部测试集有1202人的图像(平均年龄,133个月±60[SD];614名男孩)。骨龄模型对外部测试集有很好的概括性,在MAD方面没有差异(验证集为6.8个月,外部集为6.9个月;P=0.64)。在外部测试集的1202张图像中,有194张(16%)的模型预测会导致临床上的重大错误。在内部验证集中,女孩的MAD大于男孩(P = .01),在外部测试集的年龄和Tanner阶段子类别中,MAD也大于男孩(两者的P < .001)。



 数字手部图谱数据集中没有明显临床病史的健康儿童正面手部X光片的随机示例,这些例子在16Bit模型评估时存在临床上的重大错误,包括(A)33个月大的黑人男孩,深度学习(DL)模型平均绝对差异(MAD)为15个月,导致临床诊断为高级骨骼成熟度。(B) 201个月大的亚洲女孩,DL模型的MAD为24个月,结果临床诊断为骨骼成熟度延迟;(C) 189个月大的白人男孩,DL模型的MAD为60个月,结果临床诊断为骨骼成熟度正常;(D) 75个月大的西班牙裔女孩,DL模型MAD为15个月,结果临床诊断为骨骼成熟度正常

本项研究表明,在手部X光片上训练的深度学习(DL)小儿骨龄预测模型对不同的外部测试集有很好的概括性,但也表现出临床上明显的基于性别、年龄和性成熟度的偏差。本研究建议在临床上使用DL模型时要谨慎,特别是在没有评估偏差的情况下,并强调使用临床相关指标来评估DL模型的重要性。

原文出处:

Elham Beheshtian,Kristin Putman,Samantha M Santomartino,et al.Generalizability and Bias in a Deep Learning Pediatric Bone Age Prediction Model Using Hand Radiographs.DOI:10.1148/radiol.220505

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

European Radiology:肩关节MR成像的深度学习重建,实现图像的“又好又快”!

现阶段,临床上引入了基于深度学习的卷积神经网络(DL)以加速传统序列的图像重建,减少图像噪声和扫描时间的同时保持最佳图像对比度。

Radiology:基于深度学习的胰腺癌CT检测

现阶段,深度学习(DL)的最新进展在医学图像分析中显示出巨大的前景。

Radiology:深度学习,实现MR中轴性脊椎关节炎的准确评估!

骶髂关节的软骨下骨髓水肿是脊柱关节炎的一个特征性影像学特征,也是满足国际脊柱关节炎评估协会(ASAS)对MRI阳性发现标准的一个必要表现,是axSpA分类标准的一部分。

Radiology:基于深度学习的偶发胰腺肿瘤的自动CT检测

据报道,在胰腺中,CT或MRI检测到的胰腺偶然病变的发生率为4.7%至21.0%。偶然发现的胰腺病变可以有不同的临床表现,早期发现可能会明显改善患者的预后。

Radiology:深度学习,让肺结核在胸片上无处遁形!

在过去的十年里,通过世界卫生组织(WHO)的 "终结结核病战略"、联合国的可持续发展目标以及全球抗击艾滋病、结核病和疟疾基金,全球一直在稳步支持对抗这一健康危机。

Investigative Radiology:深度学习能放大造影剂对颅脑MR图像质量的影响吗?

现阶段,静脉注射钆基造影剂(GBCA)对提高MRI敏感性方面特别有效,在临床上使用十分广泛。