Scientific Data:我国学者发布原发性鼻咽癌多模态MRI分割数据集

2025-08-23 熊佳仪 MedSci原创 发表于上海

该数据集是迄今首个公开的、包含多模态MRI影像与精细手工标注的原发性鼻咽癌数据资源,不仅填补了领域内高质量数据共享的空白,也为后续影像算法开发、肿瘤量化分析以及预后模型构建提供了重要的基础支持。

鼻咽癌作为一种具有明显地域分布特征的头颈部恶性肿瘤,在全球范围内尤其是东南亚地区构成了沉重的疾病负担,其年龄标准化发病率在2020年达到每十万人1.5例,而在东南亚地区男性与女性的发病率分别高达7.7与2.5。早期诊断精准分期是改善预后的关键,其中磁共振成像因其卓越的软组织对比度、多模态成像能力以及无电离辐射的特点,被广泛认为是鼻咽癌定位、定性及分期中最优选的影像学手段。尽管MRI在临床实践中具有不可替代的作用,但高质量、多模态且带有精细标注的鼻咽癌MRI数据集的匮乏,严重限制了相关计算机辅助诊断与治疗规划算法的发展,尤其是基于人工智能的自动分割与预后预测模型。

为了填补这一空白,本研究首次构建并发布了一个包含277例原发性鼻咽癌患者的多模态MRI影像数据集,涵盖T1加权、T2加权及对比增强T1加权序列,所有影像均经由经验丰富的放射科医师手工勾画肿瘤区域,并配套提供详细的临床资料与随访信息,旨在为医学影像分析研究社区提供高质量、标准化的基准数据资源。

在数据构建的方法学方面,本研究严格遵循了国际公认的数据采集与标注标准。所有病例均来自佛山市第一人民医院,经组织病理学确诊为原发性鼻咽癌,且排除了既往接受过放疗、化疗或伴有其他恶性肿瘤的患者,以确保肿瘤形态的原始性与数据的纯净性。影像数据通过六台不同型号的磁共振扫描仪采集,包括GE Discovery MR750w 3.0T和Philips Achieva 1.5T等设备,所有设备均经过严格的几何校准、信号强度标准化与磁场均匀性调整,以最大限度地减少设备间差异对影像一致性的影响。影像序列包括轴位T1WI、T2WI和CE-T1WI,共计831次扫描,关键成像参数如回波时间、重复时间、层厚、像素间距等均以中位数及极差形式详细报告,体现出数据在技术层面的规范性与可重复性。在数据预处理阶段,所有患者标识信息均被匿名化处理,去除直接与间接标识符,以符合医学伦理与隐私保护要求。

图1

图1 图形摘要与示例

肿瘤区域的勾画由两位具有十年以上经验的放射科医师独立完成,他们使用ITK-SNAP软件(v3.6.1)在轴位影像上逐层手动标注肿瘤边界,过程中综合参考T1WI、T2WI及CE-T1WI序列的影像特征,以准确识别肿瘤原发灶及其周围侵犯范围。具体而言,T1WI序列用于显示周围脂肪间隙与肌肉结构,CE-T1WI对早期黏膜增厚区域的边界确定尤为关键,而T2WI则有助于区分肿瘤组织与正常黏膜信号。标注完成后,标签被转化为二值掩模,并以NIFTI格式存储,便于后续机器学习任务的使用。为评估标注的一致性,本研究随机选取30例患者影像,由两位医师分别进行勾画,并计算其Dice系数与Jaccard指数作为评分者间信度的量化指标。结果显示,在不同序列上,Dice系数均保持在0.8以上,Jaccard指数也达到0.75以上,表明手工标注具有高度的一致性与可靠性。

图2
图2 评分者间信度(Dice系数)

除了影像数据,本研究还提供了丰富的临床资料与肿瘤形态学参数。临床数据包括患者性别、年龄、TNM分期(依据第八版UICC/AJCC分期系统)、病理类型、EBV感染状态(VCA-IgA与EBV-DNA)以及五年无进展生存期等信息。在277例患者中,男性占比较高(70%以上),中位年龄约50岁,绝大多数为非角化性鳞状细胞癌。分期方面以III期患者为主(140例),IVa期94例,IVb期13例,早期(I–II期)相对较少,这一分布符合鼻咽癌的自然病程特点。肿瘤形态学参数包括体积、表面积、最大直径和表面规则度等,这些指标通过基于三角网格的算法从三维标注中提取,可用于量化肿瘤的空间特征与异质性。所有临床与形态学数据均以CSV格式提供,并与影像数据通过患者编号进行关联,方便多模态数据的整合分析。

图3
图3 评分者间信度(Jaccard指数)

在技术验证方面,本研究不仅通过评分者间信度检验了标注质量,还进一步利用形态学参数描述了肿瘤的空间特征。例如,肿瘤体积在T1WI、T2WI和CE-T1WI序列上的中位数分别为8.60 cm³、8.67 cm³和9.42 cm³,最大直径约4.5–4.7 cm,表面规则度在0.39–0.40之间,反映出鼻咽癌肿瘤普遍具有一定的形态复杂性。此外,通过分析不同序列间肿瘤体积的一致性,也间接验证了多模态影像在肿瘤刻画中的互补性。所有数据均以结构化的形式存储在Zenodo平台,包括DICOM格式的原始影像、NIFTI格式的分割标签以及多个CSV文件存储的临床与机器元数据,数据集整体结构清晰、便于访问与使用。

图4
图4 数据集结构

综上,该数据集是迄今首个公开的、包含多模态MRI影像与精细手工标注的原发性鼻咽癌数据资源,不仅填补了领域内高质量数据共享的空白,也为后续影像算法开发、肿瘤量化分析以及预后模型构建提供了重要的基础支持。尽管当前自动分割方法在不断进步,但高质量的人工标注仍是模型训练与验证的金标准。本数据集的发布将有助于推动鼻咽癌影像分析研究的可重复性与可比性,促进人工智能在精准医疗中的应用。研究者还指出,数据集的局限性包括其单中心来源和 retrospective 设计,未来可通过多中心、前瞻性数据采集进一步扩大样本量与多样性。

原始出处:

Li, Y., Chen, Q., Li, M. et al. A dataset of primary nasopharyngeal carcinoma MRI with multi-modalities segmentation. Sci Data 12, 1450 (2025). https://doi.org/10.1038/s41597-025-05815-x

相关资料下载:
[AttachmentFileName(sort=1, fileName=s41597-025-05815-x.pdf)] GetArticleByIdResponse(id=f14889319481, projectId=1, sourceId=null, title=Scientific Data:我国学者发布原发性鼻咽癌多模态MRI分割数据集, articleFrom=MedSci原创, journalId=13150, copyright=原创, creationTypeList=[1], summary=该数据集是迄今首个公开的、包含多模态MRI影像与精细手工标注的原发性鼻咽癌数据资源,不仅填补了领域内高质量数据共享的空白,也为后续影像算法开发、肿瘤量化分析以及预后模型构建提供了重要的基础支持。, cover=https://img.medsci.cn/20241115/1731647589879_8538692.png, authorId=0, author=熊佳仪, originalUrl=, linkOutUrl=, content=<p class="ds-markdown-paragraph" style="color: #404040;"><a href="https://www.medsci.cn/topic/show?id=c3f910342343">鼻咽癌</a>作为一种具有明显地域分布特征的头颈部<a href="https://www.medsci.cn/topic/show?id=3ce252932f0">恶性肿瘤</a>,在全球范围内尤其是东南亚地区构成了沉重的疾病负担,其年龄标准化发病率在2020年达到每十万人1.5例,而在东南亚地区男性与女性的发病率分别高达7.7与2.5。早期<a href="https://www.medsci.cn/guideline/list.do?q=%E8%AF%8A%E6%96%AD">诊断</a>与<a href="https://www.medsci.cn/search?q=%E7%B2%BE%E5%87%86">精准</a>分期是改善预后的关键,其中磁共振成像因其卓越的软组织对比度、多模态成像能力以及无电离辐射的特点,被广泛认为是鼻咽癌定位、定性及分期中最优选的影像学手段。尽管MRI在临床实践中具有不可替代的作用,但高质量、多模态且带有精细标注的鼻咽癌MRI数据集的匮乏,严重限制了相关计算机辅助诊断与治疗规划算法的发展,尤其是基于人工智能的自动分割与预后预测模型。</p> <p class="ds-markdown-paragraph" style="color: #404040;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20250822/1755849813031_6512445.png" /></p> <p class="ds-markdown-paragraph" style="color: #404040;">为了填补这一空白,本研究首次构建并发布了一个包含277例原发性鼻咽癌患者的多模态MRI影像数据集,涵盖T1加权、T2加权及对比增强T1加权序列,所有影像均经由经验丰富的放射科医师手工勾画肿瘤区域,并配套提供详细的临床资料与随访信息,旨在为医学影像分析研究社区提供高质量、标准化的基准数据资源。</p> <p class="ds-markdown-paragraph" style="color: #404040;">在数据构建的方法学方面,本研究严格遵循了国际公认的数据采集与标注标准。所有病例均来自佛山市第一人民医院,经组织病理学确诊为原发性鼻咽癌,且排除了既往接受过放疗、化疗或伴有其他恶性肿瘤的患者,以确保肿瘤形态的原始性与数据的纯净性。影像数据通过六台不同型号的磁共振扫描仪采集,包括GE Discovery MR750w 3.0T和Philips Achieva 1.5T等设备,所有设备均经过严格的几何校准、信号强度标准化与磁场均匀性调整,以最大限度地减少设备间差异对影像一致性的影响。影像序列包括轴位T1WI、T2WI和CE-T1WI,共计831次扫描,关键成像参数如回波时间、重复时间、层厚、像素间距等均以中位数及极差形式详细报告,体现出数据在技术层面的规范性与可重复性。在数据预处理阶段,所有患者标识信息均被匿名化处理,去除直接与间接标识符,以符合医学伦理与隐私保护要求。</p> <p class="ds-markdown-paragraph" style="color: #404040;"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/images/20250821/e1fffcdc5d934314a67681117d3f9364-JcxCuBZIbwlk.jpg" alt="图1" /></p> <p class="ds-markdown-paragraph" style="color: #404040; text-align: center;">图1 图形摘要与示例</p> <p class="ds-markdown-paragraph" style="color: #404040;">肿瘤区域的勾画由两位具有十年以上经验的放射科医师独立完成,他们使用ITK-SNAP软件(v3.6.1)在轴位影像上逐层手动标注肿瘤边界,过程中综合参考T1WI、T2WI及CE-T1WI序列的影像特征,以准确识别肿瘤原发灶及其周围侵犯范围。具体而言,T1WI序列用于显示周围脂肪间隙与肌肉结构,CE-T1WI对早期黏膜增厚区域的边界确定尤为关键,而T2WI则有助于区分肿瘤组织与正常黏膜信号。标注完成后,标签被转化为二值掩模,并以NIFTI格式存储,便于后续机器学习任务的使用。为评估标注的一致性,本研究随机选取30例患者影像,由两位医师分别进行勾画,并计算其Dice系数与Jaccard指数作为评分者间信度的量化指标。结果显示,在不同序列上,Dice系数均保持在0.8以上,Jaccard指数也达到0.75以上,表明手工标注具有高度的一致性与可靠性。</p> <p class="ds-markdown-paragraph" style="color: #404040; text-align: center;"><img src="https://img.medsci.cn/images/20250821/96f8604ba67842dabf5e07fe738b247f-qiEXeab8IkNh.jpg" alt="图2" /><br />图2 评分者间信度(Dice系数)</p> <p class="ds-markdown-paragraph" style="color: #404040;">除了影像数据,本研究还提供了丰富的临床资料与肿瘤形态学参数。临床数据包括患者性别、年龄、TNM分期(依据第八版UICC/AJCC分期系统)、病理类型、EBV感染状态(VCA-IgA与EBV-DNA)以及五年无进展生存期等信息。在277例患者中,男性占比较高(70%以上),中位年龄约50岁,绝大多数为非角化性鳞状<a href="https://www.medsci.cn/topic/show?id=3b90e79787f">细胞癌</a>。分期方面以III期患者为主(140例),IVa期94例,IVb期13例,早期(I&ndash;II期)相对较少,这一分布符合鼻咽癌的自然病程特点。肿瘤形态学参数包括体积、表面积、最大直径和表面规则度等,这些指标通过基于三角网格的算法从三维标注中提取,可用于量化肿瘤的空间特征与异质性。所有临床与形态学数据均以CSV格式提供,并与影像数据通过患者编号进行关联,方便多模态数据的整合分析。</p> <p class="ds-markdown-paragraph" style="color: #404040; text-align: center;"><img src="https://img.medsci.cn/images/20250821/7cb5deee4a994bcbaba601cbc5bcfe5d-GnrNqS86SLRv.jpg" alt="图3" /><br />图3 评分者间信度(Jaccard指数)</p> <p class="ds-markdown-paragraph" style="color: #404040;">在技术验证方面,本研究不仅通过评分者间信度检验了标注质量,还进一步利用形态学参数描述了肿瘤的空间特征。例如,肿瘤体积在T1WI、T2WI和CE-T1WI序列上的中位数分别为8.60 cm&sup3;、8.67 cm&sup3;和9.42 cm&sup3;,最大直径约4.5&ndash;4.7 cm,表面规则度在0.39&ndash;0.40之间,反映出鼻咽癌肿瘤普遍具有一定的形态复杂性。此外,通过分析不同序列间肿瘤体积的一致性,也间接验证了多模态影像在肿瘤刻画中的互补性。所有数据均以结构化的形式存储在Zenodo平台,包括DICOM格式的原始影像、NIFTI格式的分割标签以及多个CSV文件存储的临床与机器元数据,数据集整体结构清晰、便于访问与使用。</p> <p class="ds-markdown-paragraph" style="color: #404040; text-align: center;"><img src="https://img.medsci.cn/images/20250821/96ce421d7ae446eaac69363fe1d99f42-zjiT6fZVpt66.jpg" alt="图4" /><br />图4 数据集结构</p> <p class="ds-markdown-paragraph" style="color: #404040;">综上,该数据集是迄今首个公开的、包含多模态MRI影像与精细手工标注的原发性鼻咽癌数据资源,不仅填补了领域内高质量数据共享的空白,也为后续影像算法开发、肿瘤量化分析以及预后模型构建提供了重要的基础支持。尽管当前自动分割方法在不断进步,但高质量的人工标注仍是模型训练与验证的金标准。本数据集的发布将有助于推动鼻咽癌影像分析研究的可重复性与可比性,促进人工智能在精准医疗中的应用。研究者还指出,数据集的局限性包括其单中心来源和 retrospective 设计,未来可通过多中心、前瞻性数据采集进一步扩大样本量与多样性。</p> <p class="ds-markdown-paragraph" style="color: #404040;"><span style="color: #808080; font-size: 12px;">原始出处:</span></p> <p class="ds-markdown-paragraph" style="color: #404040;"><span style="color: #808080; font-size: 12px;">Li, Y., Chen, Q., Li, M. et al. A dataset of primary nasopharyngeal carcinoma MRI with multi-modalities segmentation. Sci Data 12, 1450 (2025).&nbsp;<a style="color: #808080;" href="https://doi.org/10.1038/s41597-025-05815-x" target="_blank" rel="noopener noreferrer">https://doi.org/10.1038/s41597-025-05815-x</a></span></p>, belongTo=, tagList=[TagDto(tagId=250, tagName=磁共振成像), TagDto(tagId=1574, tagName=鼻咽癌), TagDto(tagId=43772, tagName=图像分割)], categoryList=[CategoryDto(categoryId=5, categoryName=肿瘤, tenant=100), CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=2081, appHits=2, showAppHits=0, pcHits=409, showPcHits=2079, likes=0, shares=1, comments=0, approvalStatus=1, publishedTime=Sat Aug 23 16:00:00 CST 2025, publishedTimeString=2025-08-23, pcVisible=1, appVisible=1, editorId=6529995, editor=肿瘤新前沿, waterMark=0, formatted=0, deleted=0, version=3, createdBy=074a6512445, createdName=xiongjy, createdTime=Fri Aug 22 16:04:25 CST 2025, updatedBy=92910, updatedName=rayms, updatedTime=Sat Aug 23 22:25:57 CST 2025, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=s41597-025-05815-x.pdf)], guideDownload=1, surveyId=null, surveyIdStr=null, surveyName=null, pushMsXiaoZhi=true, qaList=[{id=930934, encryptionId=7a7b9309340b, articleId=f14889319481, userName=administrator, question=对于鼻咽癌预后预测模型,除TNM分期外,哪些MRI衍生的影像组学特征最具预测价值?, answer=现有研究表明肿瘤异质性特征(如纹理参数)、深层肌肉浸润程度、以及ADC值等功能影像参数对局部复发和远处转移具有独立预测价值。, clickNum=0, type=article, createdAt=1756348706502, updatedAt=1756348706502}, {id=930931, encryptionId=d2279309315e, articleId=f14889319481, userName=administrator, question=EBV感染状态(VCA-IgA与EBV-DNA)为何被纳入鼻咽癌MRI数据集?这些指标与影像特征是否存在相关性?, answer=EBV感染是鼻咽癌重要病因,其血清学指标可能与肿瘤负荷相关。已有研究表明EBV-DNA水平与肿瘤体积、坏死程度等影像特征存在统计关联。, clickNum=0, type=article, createdAt=1756348706502, updatedAt=1756348706502}])
s41597-025-05815-x.pdf
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2278425, encodeId=d8db22e842560, content=<a href='/topic/show?id=3a59e376065' target=_blank style='color:#2F92EE;'>#磁共振成像#</a> <a href='/topic/show?id=c3f910342343' target=_blank style='color:#2F92EE;'>#鼻咽癌#</a> <a href='/topic/show?id=68fc411828d' target=_blank style='color:#2F92EE;'>#图像分割#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=89, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=41182, encryptionId=68fc411828d, topicName=图像分割), TopicDto(id=73760, encryptionId=3a59e376065, topicName=磁共振成像), TopicDto(id=103423, encryptionId=c3f910342343, topicName=鼻咽癌)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sat Aug 23 22:25:57 CST 2025, time=2025-08-23, status=1, ipAttribution=上海)]

相关资讯

中科院苏州纳米所裴仁军团队Biomaterials:新型可时间分辨MRI造影剂让肿瘤“无所遁形”

中科院苏州纳米所裴仁军团队开发造影剂 LESPH,利用肿瘤弱酸和 GSH,通过 “时间分辨” 策略实现双次 MRI 信号切换,有效规避内源性伪影,提高肿瘤诊断准确性。

European Radiology Experimental:深度学习赋能慢性肝病无创评估,自动化肝血管体积分析的临床转化潜力

本研究的创新点在于首次通过深度学习技术实现了肝脏血管体积的自动化定量分析,并系统评估了其与临床参数的关系。

核磁有致命隐患?最新研究:显影剂中的稀土重金属钆沉淀或为毒性根源

钆基对比剂(GBCAs)用于 MRI 成像,但安全性受关注。研究模拟体内环境,发现其与草酸反应生成草酸钆沉淀,酸性和蛋白质存在时加速反应,为理解 GBCAs 毒性及钆沉积机制提供新视角。

JAMA Neurology:杜氏肌营养不良症患者的定量肌肉磁共振结果——EMBARK随机临床试验的探索性分析

本研究通过定量磁共振技术证实了delandistrogene moxeparvovec在减缓DMD患者肌肉脂肪浸润和改善肌肉完整性方面的潜在作用。

Eur Urol Open Sci:经磁共振成像检出单侧可疑前列腺癌时省略对侧系统性活检对放疗方案选择的影响

省略对侧系统性活检会影响选择放射治疗作为局部局限性前列腺癌治疗手段的患者的治疗选择。

European Radiology:非强化简化磁共振成像在实际肝细胞癌监测中的有效性

无对比剂简化 MRI(NC-AMRI)已成为一种很有前景的替代方法,研究表明其性能优于超声检查。然而,大多数证据来自肝细胞癌发病率较高的诊断场景,而非真正的监测人群。

JAMA:微超声引导与磁共振成像引导下的前列腺癌活检在诊断中的比较:OPTIMUM 随机对照临床试验

高分辨率微超声引导下的活检是用于前列腺癌诊断的另一种方法,可替代磁共振成像融合引导下的活检。