Nature子刊：多用途深度学习方法sciPENN，可预测、插补scRNA-seq、CITE-seq蛋白质表达

2022-11-24 DR.kaiven 测序中国发表于上海

研究团队开发了sciPENN深度学习模型，可以预测和估算蛋白质表达，集成多个CITE-seq数据集，量化预测和估算不确定性。

近日，美国宾夕法尼亚大学研究团队在Nature Machine Intelligence上发表了题为“A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation”的文章。研究团队开发了一种多用途的深度学习方法——sciPENN，支持CITE-seq和scRNA-seq数据整合，能够预测、插补scRNA-seq、CITE-seq蛋白质表达，量化不确定性以及实现从CITE-seq到scRNA-seq的细胞类型标记转移。跨多个数据集的综合评估表明，sciPENN优于当前同类其他方法。

文章发表在Nature Machine Intelligence上

sciPENN的模型架构如图1所示，其总体目标是从一个或多个CITE-seq参考数据集中学习。当CITE-seq参考数据不完全重叠时，sciPENN可以对每个参考数据集的缺失蛋白质进行估算。在CITE-seq参考数据中学习后，sciPENN能够预测scRNA-seq查询数据集的所有蛋白质，并将多个数据集整合到一个共同的嵌入空间中。sciPENN可以估计蛋白的平均表达量，量化估算的不确定性，并选择性将细胞类型标签从CITE-seq参考数据转移到scRNA-seq查询数据中。

图1. sciPENN方法概述。

研究团队使用Seurat 4文章中报告的161,764个人类外周血单核细胞数据集（PBMC）进行分析，其包含224种蛋白质。对于测试集，使用了粘膜相关淋巴组织数据集（MALT），其包含由10x Genomics生成的8,412个细胞。在MALT数据集中的17种蛋白质中，有10种与PBMC数据集重叠。

研究团队分别使用sciPENN、Seurat 4和TotalVI方法分析了上述数据（图2）。首先，使用每种方法将PBMC CITE-seq参考数据和MALT scRNA-seq查询数据共同嵌入到一个潜在空间中（图2）。由于PBMC和MALT查询数据之间的巨大差异，即使这三种方法中都采用了内部批量校正策略，sciPENN、TotalVI和Seurat 4仍很难在潜在嵌入空间中完全混合这两个数据集。但sciPENN整合两个数据集的能力最优，其在潜在嵌入中实现了这两个数据集的部分混合。

同时，研究团队还检测了三种方法的蛋白表达预测准确性，通过相关性和均方根误差（RMSE）对其进行量化。结果显示，sciPENN在所有蛋白质中实现了最高的蛋白质预测精度。这种高蛋白质预测准确性使sciPENN能够准确地恢复蛋白质表达模式。

图2. 使用Seurat 4 PBMC数据集作为参考的MALT数据集中的蛋白表达预测。

考虑到查询、参考数据集之间更加均衡的平衡，研究团队使用一个人类血液单核细胞和树突状细胞CITE-seq数据集（单核细胞数据集），为测试集保留了真实表达（图3）。分析显示，sciPENN在嵌入过程中实现了两个数据集的完全混合；TotalVI实现了几乎完全的混合，只有极少的不重叠；Seurat 4未完全混合两个数据集。

图3. 单核细胞数据集中的蛋白表达预测。

接下来，研究团队随机地将完整的PBMC数据分为训练一半和测试一半，选择了CD8亚型的三种蛋白质标志物（CD45RA，CD44-2和CD38-1）并检测了sciPENN恢复标记蛋白趋势的能力（图4）。CD45RA是CD8幼稚型的明显标记，CD44-2是CD8 TEM3和CD8 TCM2的明显标记，CD38-1是CD8 TCM2的明显标记。

结果显示，sciPENN的蛋白质预测准确地恢复了这些趋势，研究人员可仅使用sciPENN预测来检测蛋白质的高表达细胞亚型。TotalVI和Seurat 4的表现比sciPENN略差，Seurat 4低估了CD8 TEM3中CD44-2的表达，TotalVI低估了CD8 NAIVE 2中CD38-1的表达。

图4. PBMC数据集中的蛋白表达预测和细胞类型标记转移。

最后，研究团队检测了sciPENN在PBMC和H1N1 RNA-seq数据中预测蛋白表达能力，由于TotalVI的损失函数迅速衰减为非数字，因此并未将其纳入比较。研究团队将每个测试数据集中预测的蛋白质分为三类：仅存在于Hanifa、仅存在于Sanger和两者都存在。结果显示，与独特蛋白质相比，sciPENN预测常见蛋白质更准确、预测效果越好。上述结果强调了结合多个CITE-seq数据集对蛋白质表达预测的重要性。

图5. 使用Seurat 4 PBMC数据集作为参考的H1N1数据集中的蛋白质表达预测。

综上所述，研究团队开发了sciPENN深度学习模型，可以预测和估算蛋白质表达，集成多个CITE-seq数据集，量化预测和估算不确定性。sciPENN能够从具有部分不重叠蛋白质panel的多个CITE-seq数据集中学习，估算每个组成CITE-seq数据集的缺失蛋白质，甚至在从部分重叠的CITE-seq数据集学习后预测外部scRNA-seq数据集中的蛋白质表达。此外，sciPENN提供了比totalVI和Seurat 4更可靠、准确的结果，同时还具有高度的可扩展性和计算效率，是综合CITE-seq和scRNA-seq数据分析的一个理想工具选择。

参考文献：

Lakkis, J., Schroeder, A., Su, K. et al. A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation. Nat Mach Intell (2022). https://doi.org/10.1038/s42256-022-00545-w

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (0)

#插入话题

插入图片

下载梅斯医学APP，方便讨论，随时阅读！立即前往下载 >>

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

转化医学

Nature子刊：多用途深度学习方法sciPENN，可预测、插补scRNA-seq、CITE-seq蛋白质表达

相关资讯

科室

工具

服务