Nature子刊:多用途深度学习方法sciPENN,可预测、插补scRNA-seq、CITE-seq蛋白质表达

2022-11-24 DR.kaiven 测序中国 发表于上海

研究团队开发了sciPENN深度学习模型,可以预测和估算蛋白质表达,集成多个CITE-seq数据集,量化预测和估算不确定性。

近日,美国宾夕法尼亚大学研究团队在Nature Machine Intelligence上发表了题为“A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation”的文章。研究团队开发了一种多用途的深度学习方法——sciPENN,支持CITE-seqscRNA-seq数据整合,能够预测、插补scRNA-seqCITE-seq蛋白质表达,量化不确定性以及实现从CITE-seqscRNA-seq的细胞类型标记转移。跨多个数据集的综合评估表明,sciPENN优于当前同类其他方法。

图片

文章发表在Nature Machine Intelligence

sciPENN的模型架构如图1所示,其总体目标是从一个或多个CITE-seq参考数据集中学习。当CITE-seq参考数据不完全重叠时,sciPENN可以对每个参考数据集的缺失蛋白质进行估算。在CITE-seq参考数据中学习后,sciPENN能够预测scRNA-seq查询数据集的所有蛋白质,并将多个数据集整合到一个共同的嵌入空间中。sciPENN可以估计蛋白的平均表达量,量化估算的不确定性,并选择性将细胞类型标签从CITE-seq参考数据转移到scRNA-seq查询数据中。

图片

1. sciPENN方法概述。

研究团队使用Seurat 4文章中报告的161,764个人类外周血单核细胞数据集(PBMC)进行分析,其包含224种蛋白质。对于测试集,使用了粘膜相关淋巴组织数据集(MALT),其包含由10x Genomics生成的8,412个细胞。在MALT数据集中的17种蛋白质中,有10种与PBMC数据集重叠。

研究团队分别使用sciPENNSeurat 4TotalVI方法分析了上述数据(图2)。首先,使用每种方法将PBMC CITE-seq参考数据和MALT scRNA-seq查询数据共同嵌入到一个潜在空间中(图2)。由于PBMCMALT查询数据之间的巨大差异,即使这三种方法中都采用了内部批量校正策略,sciPENNTotalVISeurat 4仍很难在潜在嵌入空间中完全混合这两个数据集。但sciPENN整合两个数据集的能力最优,其在潜在嵌入中实现了这两个数据集的部分混合。

同时,研究团队还检测了三种方法的蛋白表达预测准确性,通过相关性和均方根误差(RMSE)对其进行量化。结果显示,sciPENN在所有蛋白质中实现了最高的蛋白质预测精度。这种高蛋白质预测准确性使sciPENN能够准确地恢复蛋白质表达模式。

图片

2. 使用Seurat 4 PBMC数据集作为参考的MALT数据集中的蛋白表达预测。

考虑到查询、参考数据集之间更加均衡的平衡,研究团队使用一个人类血液单核细胞和树突状细胞CITE-seq数据集(单核细胞数据集),为测试集保留了真实表达(图3)。分析显示,sciPENN在嵌入过程中实现了两个数据集的完全混合;TotalVI实现了几乎完全的混合,只有极少的不重叠;Seurat 4未完全混合两个数据集。

图片

3. 单核细胞数据集中的蛋白表达预测。

接下来,研究团队随机地将完整的PBMC数据分为训练一半和测试一半,选择了CD8亚型的三种蛋白质标志物(CD45RACD44-2CD38-1)并检测了sciPENN恢复标记蛋白趋势的能力(图4)。CD45RACD8幼稚型的明显标记,CD44-2CD8 TEM3CD8 TCM2的明显标记,CD38-1CD8 TCM2的明显标记。

结果显示,sciPENN的蛋白质预测准确地恢复了这些趋势,研究人员可仅使用sciPENN预测来检测蛋白质的高表达细胞亚型。TotalVISeurat 4的表现比sciPENN略差,Seurat 4低估了CD8 TEM3CD44-2的表达,TotalVI低估了CD8 NAIVE 2CD38-1的表达。

图片

4. PBMC数据集中的蛋白表达预测和细胞类型标记转移。

最后,研究团队检测了sciPENNPBMCH1N1 RNA-seq数据中预测蛋白表达能力,由于TotalVI的损失函数迅速衰减为非数字,因此并未将其纳入比较。研究团队将每个测试数据集中预测的蛋白质分为三类:仅存在于Hanifa、仅存在于Sanger和两者都存在。结果显示,与独特蛋白质相比,sciPENN预测常见蛋白质更准确、预测效果越好。上述结果强调了结合多个CITE-seq数据集对蛋白质表达预测的重要性。

图片

5. 使用Seurat 4 PBMC数据集作为参考的H1N1数据集中的蛋白质表达预测。

综上所述,研究团队开发了sciPENN深度学习模型,可以预测和估算蛋白质表达,集成多个CITE-seq数据集,量化预测和估算不确定性。sciPENN能够从具有部分不重叠蛋白质panel的多个CITE-seq数据集中学习,估算每个组成CITE-seq数据集的缺失蛋白质,甚至在从部分重叠的CITE-seq数据集学习后预测外部scRNA-seq数据集中的蛋白质表达。此外,sciPENN提供了比totalVISeurat 4更可靠、准确的结果,同时还具有高度的可扩展性和计算效率,是综合CITE-seqscRNA-seq数据分析的一个理想工具选择。

参考文献:

Lakkis, J., Schroeder, A., Su, K. et al. A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation. Nat Mach Intell (2022). https://doi.org/10.1038/s42256-022-00545-w

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

承启生物基于FANSe算法的基因测序分析云平台在AWS上运行成功

近日,承启生物携手亚马逊云服务(AWS),在AWS上成功部署了基于FANSe算法的全自主基因测序分析云平台,并免费向全世界开放使用。

当基因测序可以拯救生命时,速度慢了怎么行?

人类基因组计划的成功仅仅是一个开始。我们从人类基因组图谱中只发现了20000多个编码蛋白质的基因,这些基因只占据人类基因组的不到3%,其余的绝大多数是不编码蛋白质的非编码序列。

《全国基因测序服务质量现状调研》诚邀您参加!

邀请您参加《全国基因测序服务质量现状调研》,本次调研旨在更好地了解您在使用基因测序服务时遇到的问题,以便给您提供更优质的服务。本次问卷填写预计将占用您3-5分钟的时间。谢谢您的参与!

Nature Biotechnology:斯坦福/牛津纳米孔/谷歌/英伟达合作,开发超快速纳米孔测序,7小时发现致病基因突变

也许在不远的将来,基因诊断也会像核酸检测一样,只用等上几个小时就能得到结果,方便患者得到最快的最合适的治疗。

Nature发布15万人全基因组测序研究成果,揭示多个罕见变异的性状关联

该研究发现了895055个SV和2536688个微卫星,这些变异通常被排除在大规模全基因组测序研究之外。研究团队在文中阐述多个以往基于WES和预测研究中未发现的具有较大影响的罕见变异性状关联案例。

我们人类从哪里来?为何独一无二?系统解读新科诺奖得主斯万特·帕博的研究成果

斯万特·帕博(Svante Pääbo)通过他的开创性研究,完成了一件看似不可能的事——对已灭绝数万年的人类近亲尼安德特人进行基因测序。他还发现了一种以前不为人知的古人类物种——丹尼索瓦人。