Genome Biol:南开大学陈盛泉团队提出可解释的单细胞染色质可及性数据细胞类型自动注释框架——MINGLE

2025-06-16 测序中国 测序中国 发表于上海

MINGLE融合了对比学习与图神经网络进行细胞拓扑建模,并创新性地引入凸包识别策略与互信息解释机制,显著提升了稀有及新型细胞类型识别能力与模型可解释性。

单细胞测序技术的突破性进展极大推动了细胞异质性研究,其中单细胞染色质可及性测序通过解析染色质可及性图谱,为揭示转录调控网络和表观基因组异质性提供了单细胞分辨率的关键工具。细胞类型注释是单细胞数据分析中的关键任务。然而,单细胞染色质可及性数据的高噪声与极度稀疏等特性,为该类数据的细胞类型自动注释任务带来了显著挑战。现有自动注释方法在跨批次、跨组织和跨物种场景中性不足,尤其缺乏对训练集未涵盖的新细胞类型的识别能力;此外,多数方法缺乏可解释性,难以关联细胞类型特异性的调控机制。

近日南开大学数学科学学院陈盛泉教授团队Genome Biology上发表了题为“MINGLE: a mutual information-based interpretable framework for automatic cell type annotation in single-cell chromatin accessibility data”的文章。文章针对单细胞染色质可及性数据提出了细胞类型自动注释框架MINGLEMINGLE融合了对比学习与图神经网络进行细胞拓扑建模,并创新性地引入凸包识别策略与互信息解释机制,显著提升了稀有及新型细胞类型识别能力与模型可解释性。

MINGLE是一个基于互信息构建的可解释性细胞类型自动注释框架,旨在精准解析单细胞染色质可及性数据中的细胞异质性。该方法首先设计基于掩码的类别平衡策略,有效缓解稀有细胞类型样本不足对模型训练的不利影响。在表示学习阶段,MINGLE借助对比学习框架构建高质量的细胞低维嵌入,并完成初步注释。在此基础上,MINGLE进一步基于细胞嵌入构建K近邻图,并引入图卷积网络开展半监督学习,实现对细胞类型的第二轮注释。模型通过融合两轮注释结果以提升鲁棒性与精度。为识别新型细胞类型,MINGLE在低维子空间中为已知细胞类型构建凸包结构,以识别测试集中的新细胞类型。此外,MINGLE基于互信息最大化准则训练特征选择器,从高维染色质可及性数据中自动筛选细胞类型特异性区域,为注释结果提供可靠的生物学解释(图1

1 MINGLE算法工作流程图

研究团队利用来自个物种、组织和测序平台的单细胞染色质可及性数据集进行验证,结果表明MINGLE在已知细胞类型注释任务中,尤其针对稀有细胞类型的识别任务中显著优于现有方法。同时,该方法能够有效鉴定单细胞染色质可及性数据集中的新细胞类型,为发现未知生物功能及挖掘新治疗靶点、生物标志物提供了有力支持。通过遗传力分析、组织特异性表达富集分析及功能富集分析等下游分析进一步证实,MINGLE不仅具备高精度的注释能力,还具有良好的可解释性,能够深入揭示细胞类型特异性调控机制及疾病相关遗传变异。更为重要的是,MINGLE在跨批次、跨组织和跨物种的注释场景中表现优异,且对不同不平衡程度和数据规模的数据集展现出较强的鲁棒性,充分凸显了其在复杂应用场景中的泛化性与可靠性。

综上所述,该研究提出了一种基于互信息的可解释框架MINGLE,以实现单细胞染色质可及性数据的精准细胞类型注释,并在跨物种、跨组织、跨测序平台的多样化数据集上,展现出对现有方法在稀有细胞类型识别、新细胞类型发现及跨场景泛性方面的显著提升。随着单细胞表观基因组学研究的深入和大规模单细胞染色质可及性数据集的涌现,MINGLE通过整合对比学习、图拓扑建模及互信息解释机制,能够有效解析细胞异质性背后的调控网络,为揭示基因表达调控规律和构建单细胞水平的表观遗传图谱提供关键技术支撑。

该研究得到了国家自然科学基金、中国科协青年人才托举工程、南开大学百名青年学科带头人计划等项目的资助。南开大学硕士生李斯羽、本科生黄逸凡为本文的共同第一作者,南开大学数学科学学院陈盛泉教授为本文的通讯作者。

原文链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03603-9 

相关代码与数据:https://github.com/BioX-NKU/MINGLE 

课题组主页:https://biox-nku.cn/ 

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2269538, encodeId=90a72269538ab, content=<a href='/topic/show?id=996f36304ba' target=_blank style='color:#2F92EE;'>#单细胞染色质#</a> <a href='/topic/show?id=2a1912e8437a' target=_blank style='color:#2F92EE;'>#MINGLE#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=16, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=127843, encryptionId=2a1912e8437a, topicName=MINGLE), TopicDto(id=36304, encryptionId=996f36304ba, topicName=单细胞染色质)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sun Jun 15 23:01:56 CST 2025, time=2025-06-15, status=1, ipAttribution=上海)]
    2025-06-15 梅斯管理员 来自上海

相关资讯

Genome Biology:scIBD:识别单细胞染色质开放性测序数据中异质双联体细胞的新工具

厦门大学王颖、南开大学陈盛泉课题组联合开发了一个对不同单细胞染色质开放性测序数据,进行异质双联体细胞有效识别并去除的新工具。

GENOME BIOLOGY:scIBD用于增强单细胞染色质可及性测序中异型双联体的检测

scIBD 引入了一种自适应策略来模拟高置信度异型双联体,并以迭代优化的方式自我监督双联体检测。对各种模拟和真实数据集的全面基准测试证明了 scIBD 的卓越性能和稳健性。

Cell Rep| 乳腺癌细胞可塑性和异质性,单细胞染色质可接近性图谱揭示乳腺细胞发育中细胞状态特异性转录因子网络和细胞谱系关系

乳腺癌是全世界妇女中最常见的癌症,大约每年两百多万女性受其困扰。根据WHO 估计,在所有的女性癌症者中,约15%的死亡与乳腺癌相关。乳腺癌中某些类型至今仍然没有有效治疗方案。乳腺癌中癌细胞的可塑性和组织的异质性是治疗失败的一大原因。不论是乳腺发育过程中的正常乳腺细胞,还是乳腺癌发展过程中的癌细胞,对于其细胞状态转换的分子机制,人们的了解目前仍然十分有限。目前人们对乳腺发育的了解,主要集中在出生后乳