Nucleic Acids Res:空间转录组学数据挖掘新算法——DeepST

2022-10-24 测序中国 测序中国

研究团队研发了基于深度学习的空间域识别技术(DeepST)。DeepST使用预先训练好的深度神经网络模型从组织形态学信息(H&E染色图片)中提取图像特征,然后将提取的特征与基因表达和空间位置数据集成,

2022年10月17日,哈尔滨工业大学蒋庆华课题组在英国牛津大学出版社Nucleic Acids Research期刊发表最新研究成果“DeepST: identifying spatial domains in spatial transcriptomics by deep learning”,提出了一种高精度的空间域(在基因表达和组织形态学上具有相似性的区域)识别算法deepST,这是一种基于深度学习的网络集成算法。通过在大量不同分辨率的空间转录组学数据集上进行的测试显示,DeepST的空间域识别性能优于已经公开发表的空间域识别方法。

1、简 介

复杂组织的功能与不同细胞类型的空间分布有关。组织中转录表达的相对位置对于了解其生物学功能至关重要。空间转录组学(ST)的突破性技术,如10× Visium、Slideseq和Stereoseq,已经能够在捕获位置(称为斑点)以几个细胞甚至亚细胞水平的分辨率对基因表达进行全基因组分析。

识别空间域(即在基因表达和组织学上具有相似性的一个区域)是空间转录组学研究中面临的巨大挑战之一。目前,识别空间域的方法主要分为两类:非空间聚类方法和空间聚类方法。传统的非空间聚类算法,如K-means和Louvain,将基因表达数据作为输入,通常它们的聚类与组织切片几乎不对应。空间聚类方法主要结合基因表达、空间位置和形态学,以解释基因表达的空间依赖性,从而更好地匹配空间位置,如BayesSpace、stLearn、SpaGCN等。虽然这些算法可以将斑点或细胞识别为不同的区域,但它们主要依靠线性主成分分析来提取基因表达的高度可变特征,主要涉及线性变换,因此它们无法建模复杂的非线性相互作用。此外,大多数方法不能整合不同批次的ST数据,且无法处理其他空间组学数据,这使得它们的通用性降低。

为了解决这些挑战,研究团队研发了基于深度学习的空间域识别技术(DeepST)。DeepST使用预先训练好的深度神经网络模型从组织形态学信息(H&E染色图片)中提取图像特征,然后将提取的特征与基因表达和空间位置数据集成,以表征空间相邻点的相关性,并创建空间增强的基因表达矩阵。DeepST使用图神经网络(GNN)编码器和去噪自编码器联合生成增强ST数据的潜在表示,域对抗神经网络(DAN)用于整合来自多个批次或不同技术平台的ST数据。

为了证明DeepST在空间域识别方面的性能,研究团队以不同平台(10×Visium、SlideseqV2和Stereoseq)生成的ST数据作为基准,与现有算法进行了广泛测试和比较。DeepST被应用到其他空间组学数据上,如4i和MIBI-TOF,特别是在MERFISH数据上提取三维(3D)表达域。在乳腺癌组织中,DeepST识别出了传统方法无法检测出的视觉同质肿瘤区域内的异质亚区域,获得了更精细的空间结构域划分。实验结果表明,该技术在空间域识别方面展现出强大的能力,在处理其他空间组学数据方面也具有很强的扩展性。

2、结 果

2.1 DeepST工作流程概述

DeepST通过整合基因表达、空间位置和组织形态学信息的低维嵌入来表征空间域(图1A)。首先通过预先训练的深度学习网络处理来自H&E染色的形态学图片,建立形态学特征矩阵。结合形态特征和空间邻近信息,实现对斑点的基因表达增强(图1B)。随后,使用去噪自编码器学习从集成特征空间到低维表示空间的线性映射,以减少模型过拟合。同时,DeepST通过k近邻方法计算空间坐标的图邻接矩阵。将一个变分图自动编码器插入同一模型框架中,以绘制点的空间关联,从而通过与相应空间相邻点的集成表示生成空间嵌入(图1C)。除了空间域识别任务,研究团队还在DeepST中实现了整合多个空间平台数据或去批次的算法,其主要是将潜在嵌入递送入由梯度反转层连接的域鉴别器中(图1C)。总而言之,该算法得到的潜在嵌入可用于识别空间域、纠正批次效应和执行各种下游分析。

图1. DeepST算法的工作流程

2.2 基准测试

为了测试DeepST在识别空间域算法方面的性能,研究团队在人脑背外侧前额叶皮质(DLPFC,图2A)上进行了基准测试。主要比较了包括非空间和空间算法在内的7种算法。结果表明,DeepST识别的空间域与DLPFC的手动注释和神经科学中皮质分层的定义是一致的(图2B, 2C)。DeepST算法的调整兰德指数(ARI)为0.515+/0.011,高于当前最佳算法(BayesSpace,ARI=0.463+/0.012;Wilcoxon检验,P值=0.007)。DeepST在编号151671切片上获得了最佳聚类精度(ARI=0.798)。在151673切片上,DeepST和BayesSpace成功描绘了L1和L2皮质层,这是任何其他方法都无法识别到的(图2B)。

研究团队进一步评估了DeepST在更为精细划分的小鼠脑组织上的空间域识别能力,DeepST识别出小鼠大脑中海马区的角状回和齿状回部分(图2F),以及后矢状面中的小脑皮质和背状回(图2F)区域,这与参考注释一致。研究人员注意到,空间域的个数设置往往会影响模型的性能。因此,研究团队设计了自适应计算最佳聚类分辨率的方法,并在小鼠大脑后部切片中获得较好的聚类得分。研究团队同样在算法性能上进行了比较,DeepST处理大约4,000个斑点和30,000个基因的空间转录组数据,需要大约7分钟(在GPU上运行)和大约6G内存,而BayesSpace需要大约四倍于DeepST的时间和更高的内存使用率。

图2. DeepST提高脑组织的空间域识别能力

2.3 DeepST更精细地从癌症组织中识别空间域

为了更好的验证DeepST在癌症组织上的泛化能力,研究团队继续测试了一组乳腺癌的空间转录组数据。整体上,DeepST识别的空间域与手动注释的结构域高度一致(图 3A、3B)。与其他的空间算法识别的空间域相比,DeepST的空间域具有更高的区域连续性和更少的噪声点(图3C)。研究团队设置了10和20个空间域,发现肿瘤区域随着参数域变大而划分地更为精细,但健康区域仍保持原有的域结构。当K=20时,肿瘤内部区域出现了不同的异质区域,如域4和13(图3B)。研究团队对这两个空间域进行差异表达分析,发现显著的差异基因(DEGs)ABCC11、ABCC12和TFF1与耐药和肿瘤分化相关(图3E)。同样对域1和域4进行了差异表达分析和通路富集分析,共检测到298个DEGs。研究发现域1可能是癌生长受促炎症免疫反应限制的区域(图3F),而域4表现出更强的肿瘤进展和转移,以及与化疗耐药相关(图3H)。总而言之,DeepST在刻画精细空间结构域方面表现出了卓越的性能。

图3. DeepST可以更精细地从癌症组织中识别空间域

2.4 DeepST应用于其他空间组学数据

除了10×Genomics Visium平台之外,研究团队测试了DeepST在基于成像的分子数据(MERFISH、4i和MIBI-TOF)和高分辨率ST数据(Stereoseq和SlideseqV2)的泛化能力。研究团队首先将DeepST应用于4i(迭代间接免疫荧光成像)数据,该数据测量了从毫米到纳米尺度(约270,000个观察值/像素)的高通量生物样本中的40个蛋白质读数。与SEDR和stLearn相比,DeepST更详细地描述了局部区域的亚细胞分布,包括每个细胞内的各种隔室、细胞器和细胞结构(图4A)。在另一个基于成像的分子MIBI-TOF数据上,DeepST在四个成像结果上显示了部分区域连续性和局部元素融合性(图4C)。

研究团队在接近单细胞分辨率的小鼠海马SlideseqV2数据(41,786个亚细胞和4,000个基因)上测试DeepST识别空间域的性能。相比较于其他的空间算法,DeepST的空间域显示出更强的区域连续性,如“DentatePyramids”和“Endolifeal_Tip”结构域(图 4B)。研究团队强调了DeepST可用于识别3D结构域,而大多数空间算法可能无法处理这些3D数据。DeepST整合了三个连续批次的小鼠视前下丘脑MERFISH数据,清晰地解析了“Ependymal”和“OD Mature”3D结构域,批次处理提供了比单个空间域识别更清晰的3D分子结构分布(图4D)。研究团队还在小鼠嗅球Stereoseq芯片数据集上,测试了DeepST识别空间域和整合不同空转数据(10×Genomics Visium和Stereoseq)的能力。DeepST准确地识别了嗅神经层、内丛状层、肾小球层、二尖瓣细胞层、颗粒细胞层和外丛状层,且与已知的解剖特征相匹配(图4F)。最后DeepST整合后的空间域显示出比SEDR、Harmony和Scanorama更大的域融合(图4G),且保留了更大的生物学变异。

图4. DeeST应用于各种空间组学数据

3、总 结

在这项研究中,研究团队开发了一个深度学习框架,其整合了空间位置、组织形态学和基因表达信息,能够识别具有基因表达和组织形态学相似的空间域。DeepST不仅可以准确识别空间域和纠正批次效应,还可以适用于其他不同的ST技术平台,如MERFISH、Slide-seq和Stereoseq。同样,DeepST也显示了处理其他空间组学数据的潜力(4i和MIBI-TOF)。应用于乳腺癌ST数据集,DeepST可以更精细地划分肿瘤组织中的亚区域。随着更多ST数据的生成,DeepST有望成为破译空间细胞分布新原理的强有力工具。

参考资料:

Xu C, Jin X, Wei S, Wang P, Luo M, Xu Z, Yang W, Cai Y, Xiao L, Lin X, Liu H, Cheng R, Pang F, Chen R, Su X, Hu Y, Wang G,Jiang Q*. DeepST: identifying spatial domains in spatial transcriptomics by deep learning. Nucleic Acids Res. 2022 Oct 17;gkac901. doi: 10.1093/nar/gkac901.

数据链接:

http://spatial.libd.org/spatialLIBD

https://support.10xgenomics.com/spatial-gene-expression/datasets

https://github.com/scverse/squidpy

https://github.com/BGIResearch/stereopy

https://www.spatialomics.org/SpatialDB/ 

代码链接:

https://github.com/JiangBioLab/DeepST

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

基于数据挖掘的《理虚元鉴》用药规律研究

分析《理虚元鉴》用药规律,探讨汪绮石治疗虚证用药特点及辨治思路,为临床提供参考。

R进行数据统计与数据挖掘:手把手教你!

R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包, 例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。

案例精讲:甲基化与基因表达数据挖掘的思路与过程

口腔鳞状细胞癌(OSCC)是最常见的头颈部鳞状细胞癌(HNSCC),由于对OSCC的发生、发展、进展、侵袭和转移的理解有限,导致该病的早期诊断大大延迟。因此,鉴定与OSCC相关的重要癌基因或肿瘤抑制基

TCGA数据库使用教程:官网、数据下载与数据挖掘分析

肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI

Chin J Integr Med:中医药治疗胃食管返流病的机制——数据挖掘和系统药理学研究

确定可能有益于胃食管反流病(GERD)患者的特效中药,并探讨其作用机制,为中医药(CM)治疗GERD的临床应用提供参考。