Genome Biology:scIBD:识别单细胞染色质开放性测序数据中异质双联体细胞的新工具

2023-11-08 测序中国 测序中国 发表于上海

厦门大学王颖、南开大学陈盛泉课题组联合开发了一个对不同单细胞染色质开放性测序数据,进行异质双联体细胞有效识别并去除的新工具。

单细胞测序技术革新了细胞多组学特征的研究,其技术发展加深了对生命科学和医学领域各个方面的理解,促进了疾病诊断和治疗的创新。特别是单细胞染色质可及性测序(scCAS)数据,能够以前所未有的分辨率表征表观组的异质性和调控模式。基于滴液的微流体技术(microfluidic technologies)被广泛应用于单细胞的高通量测序之中,大大降低了单细胞测序的成本,但其固有的内在缺陷往往会导致双联体细胞(doublet)的出现。

Doublet是指单细胞测序过程中使用滴液包裹细胞时,误将两个或多个细胞封装到同一个滴液中,从而产生的测序单元。根据包裹的细胞类型是否相同,doublet可以分为异质doublet和同质doublet。异质doublet由于混入的细胞类型不同,更可能成为噪音数据,为下游分析引入偏差,严重影响各类分析结果。目前已有大量研究旨在对单细胞转录组测序数据(scRNA-seq)中的doublet进行有效的去除。但scCAS数据因其更高维度、更高的稀疏度以及独有的二元属性,为doublet识别算法的设计研究带来了更大的挑战,并且由于scCAS数据集之间普遍具有较高的异质性,对算法的稳健性和泛化性也提出了更高的要求。

为此,厦门大学王颖、南开大学陈盛泉课题组联合开发了一个对不同单细胞染色质开放性测序数据,进行异质双联体细胞有效识别并去除的新工具。此工具能够自适应地对不同染色质开放性测序数据进行最优策略选择和doublet识别,在不同特征的数据集上展现出强大稳健的性能,并且在后续的生物分析上进一步证明了其实际应用能力。研究成果以“scIBD: a self-supervised iterative-optimizing model for boosting the detection of heterotypic doublets in single-cell chromatin accessibility data”为题发表于Genome Biology期刊上。

该工具实施一种基于自监督学习的迭代优化策略,通过模拟高置信度的pseudo-doublet,迭代地建立最近邻网络并寻找数据集中潜在的真实doublet。该工具充分考虑到真实测序环境下异质doublet的产生机制,不断实施带权重的模拟策略,以构建和真实异质doublet分布更接近的pseudo-doublet集合,从而进行更精准地网络构建和识别。该工具共设计了两种最近邻网络构建策略,可以根据数据集本身特性,自适应地匹配最优策略。在每一轮迭代中,该方法首先对数据集进行聚类,基于聚类结果进行带权重的pseudo-doublet模拟。研究团队通过最近邻网络,计算doublet分数并根据其分布确定合适的阈值,以识别每轮中最高置信度的doublet。每轮识别到的doublet不再参与后续轮次的聚类过程,以获得更优的聚类结果和模拟结果,并且寻找到的doublet能够通过参与最近邻网络的构建,提供更准确全面的doublet分数。最后scIBD基于所有迭代轮次的结果,集成地计算综合doublet分数,以确定数据集中的潜在doublet。(图1)

图片

图1 scIBD算法工作流程图

图片

图2 不同数据集的部分结果

研究团队在不同scCAS数据集上验证了scIBD的优越性能与稳定性。与其他方法相比,scIBD在识别doublet的准确性和后续的生物分析上具有卓越表现。在利用基因型变异信息作为参考进行doublet标注的真实数据集上,scIBD识别准确率显著优于其余方法,在真实数据集细胞个数的降采样实验中的结果也表明了scIBD对数据大小的鲁棒性(图2A)。在其他的模拟测试中,研究团队验证了scIBD对于拥有不同doublet比例的复杂数据集的鲁棒性(图2B)。在模拟数据集上的doublet的数据降采样测试中,scIBD也显示了其对测序深度的低敏感性(图2C)。在经过更严格数据筛选的模拟测试中,scIBD的准确性优势则更加显著(图2D)。在后续的生物验证分析(包括聚类、差异开放区域识别和KEGG分析)中,scIBD进一步展示了去除doublet对生物下游分析的实际修正能力(图2E)。

综上所述,该研究提出了一种基于自监督学习的迭代优化策略,以有效识别单细胞染色质可及性测序数据中的异质doublet,并在不同测序平台、不同细胞数量、不同特征维度、不同测序深度、不同细胞异质性强度和不同doublet比例的数据集上,都显示出了对其余方法的性能优越性。随着单细胞染色质可及性测序的不断发展和大规模数据集的不断产生,scIBD能够通过精准识别doublet有效提高数据质量,从而更深入了解单细胞表观基因组的异质性和调控模式,为构建人类细胞图谱提供前期助力。

目前,scIBD的全套代码及demo已经提供在https://github.com/Ying-Lab/scIBD上,其配套使用手册也同步至https://scibd.readthedocs.io。scIBD也可以通过PyPI直接进行下载安装,作为python包,其调用方式简单,可以和各类下游生物分析软件无缝集成。scIBD的计算性能也已进行了较高的优化,大大降低了对计算资源的依赖。

厦门大学自动化系博士生章文浩为该论文的第一作者,厦门大学自动化系的王颖教授和南开大学数学科学学院的陈盛泉副教授为该论文的通讯作者,清华大学江瑞教授也为本文做出了重要贡献。该课题得到了国家自然科学基金委、中央高校基本科研业务费专项资金等的资助。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

GENOME BIOLOGY:scIBD用于增强单细胞染色质可及性测序中异型双联体的检测

scIBD 引入了一种自适应策略来模拟高置信度异型双联体,并以迭代优化的方式自我监督双联体检测。对各种模拟和真实数据集的全面基准测试证明了 scIBD 的卓越性能和稳健性。

Cell Rep| 乳腺癌细胞可塑性和异质性,单细胞染色质可接近性图谱揭示乳腺细胞发育中细胞状态特异性转录因子网络和细胞谱系关系

乳腺癌是全世界妇女中最常见的癌症,大约每年两百多万女性受其困扰。根据WHO 估计,在所有的女性癌症者中,约15%的死亡与乳腺癌相关。乳腺癌中某些类型至今仍然没有有效治疗方案。乳腺癌中癌细胞的可塑性和组织的异质性是治疗失败的一大原因。不论是乳腺发育过程中的正常乳腺细胞,还是乳腺癌发展过程中的癌细胞,对于其细胞状态转换的分子机制,人们的了解目前仍然十分有限。目前人们对乳腺发育的了解,主要集中在出生后乳