Genome Biology:伯晓晨/何松/张仲楠团队评估16种基于深度学习的癌症多组学数据融合算法

2022-08-28 测序中国 测序中国

该研究系统地评估了16种基于深度学习的算法,结果表明,moGAT具有最佳的数据分类能力;efmmdVAE、 efVAE以及lfmmdVAE具有最佳的数据聚类能力。

随着测序技术的进步与发展,生物医学领域获得的组学数据正呈爆发式增长。不同的研究项目和研究手段,产生了以基因组学、转录组学、蛋白质组学和代谢组学为大类的多种组学数据。但是单独一种组学的数据只是从单一角度解释生物学问题,将多组学数据互补整合起来可以增深我们对生物的全面认识。为此,科学家已经开发了多种方法,例如多核学习、贝叶斯共识聚类、基于机器学习(ML)的降维、相似性网络融合和深度学习(DL)方法等。

近日,中国军事医学研究院伯晓晨/何松团队联合厦门大学张仲楠团队Genome Biology期刊上发表了题为“A benchmark study of deep learning-based multi-omics data fusion methods for cancer”的研究文章。研究团队选取了16种具有代表性的深度学习方法,在模拟数据、单细胞数据和癌症多组学数据集上进行了综合评估。比较结果表明,moGAT具有最佳的数据分类能力;efmmdVAE、efVAE以及 lfmmdVAE具有最佳的数据聚类能力。

图片

文章发表在Genome Biology

主要研究内容

研究人员采用了三种类型的数据:1.通过模拟获得的数据;2.单细胞多组学数据;3.癌症多组学数据。利用16种基于深度学习的数据融合算法对上述三种多组学数据进行评估,主要在分类、聚类和相关性分析三种工作场景下进行。(图1)

图片

 1. 测试评估流程图

1.在模拟数据集上计算与评估

研究人员使用InterSIM CRAN包生成了模拟多组学数据,并使用基于深度学习的多组学算法进行计算与评估。这些模拟数据包括DNA甲基化、mRNA基因表达和蛋白质表达等数据。通过区分有监督方法和无监督方法,并通过一定的指标进行评价,最终获得分析的结果。

2.在单细胞多组学数据集上计算与评估

将多组学数据融合算法应用于单细胞多组学数据有助于系统地探索细胞的异质性。单细胞数据集由两种组学数据类型组成,即单细胞染色质可及性数据和单细胞基因表达数据。研究团队利用来自三种不同癌细胞系(HTC、Hela 和 K562)206个细胞的两种组学数据进行了算法评估 。与上述模拟多组学数据评估类似,研究人员将方法分为有监督分类方法和无监督分类法,进行评价和分析。

3.在癌症数据集上进行计算与评估

近年来,高通量测序技术的快速发展使研究人员能够获得各种癌症类型的多组学图谱。为了更好地了解癌症的分子和临床特征,使用的多组学数据融合算法至关重要。研究人员从癌症基因组图谱(TCGA)数据库中获取了数据集,包括基因表达、DNA甲基化和miRNA表达等数据。

图片

图2. 基于深度学习计算方法的测试与评价

主要研究结果

在模拟多组学数据集上进行评估时,大多数监督方法在分类任务中表现出良好的性能,尤其是efNN、moGCN和moGAT。两种基于卷积神经网络(CNN)的方法(efCNN和lfCNN)效果较差,表明在输入上使用带有一维卷积层的CNN可能不适合多组学数据融合。对于聚类分析,efAE、lfmmdVAE和efVAE表现最好。与模拟数据集的结果类似,moGCN和moGAT在单细胞数据集的分类任务上表现非常出色。对于单细胞数据集上聚类性能的评价,efmmdVAE和lfAE是最有效的方法。在癌症数据集中,moGAT在分类任务上仍然优于其他监督方法。在评估聚类性能时,efmmdVAE、efVAE和lfmmdVAE在大多数场景下取得了较优的结果。在嵌入生存或临床注释等信息时,评估组学数据与之的关联,lfVAE和lfSVAE是最有效的。因此,对于需要嵌入额外信息的研究,lfVAE和lfSVAE值得优先考虑。

基于上述结果,为了使评价更加直观,研究人员定义了一个统一的分数,并根据统一的分数对这些深度学习算法进行排序。如图2所示,对于分类任务moGAT在三个不同的多组学数据集上排名第一。对于聚类任务,efVAE、lfmmdVAE和lfAE是模拟数据集上排名前三的算法。lfAE、lfDAE和efmmdVAE是针对单细胞数据集的前三种算法。efmmdVAE、lfmmdVAE和efVAE是针对癌症数据集的前三种算法。

结 语

越来越多的证据表明,多组学数据融合分析在广泛的生物医学研究中发挥着重要作用。该研究系统地评估了16种基于深度学习的算法,结果表明,moGAT具有最佳的数据分类能力;efmmdVAE、 efVAE以及lfmmdVAE具有最佳的数据聚类能力。

总体而言,专注于分类任务的研究人员应优先考虑基于GNN的算法,基于GNN的算法可将多组学数据构建成相似网络,样本之间的相关性可以通过相似性网络捕获。因此,研究人员可以有效地利用数据的组学特征和几何结构,提高分类性能。在关注聚类任务时,可优先考虑efmmdVAE、efVAE和lfmmdVAE,这三种算法在所有不同的基准测试中具有最有效和最一致的表现。

参考资料:

Leng, D., Zheng, L., Wen, Y. et al. A benchmark study of deep learning-based multi-omics data fusion methods for cancer. Genome Biol 23, 171 (2022).

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02739-2

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (3)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1767926, encodeId=d8841e679269f, content=<a href='/topic/show?id=64f5343e2f' target=_blank style='color:#2F92EE;'>#Biol#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=72, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=3437, encryptionId=64f5343e2f, topicName=Biol)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=446937890434, createdName=12498ebem31暂无昵称, createdTime=Sun Oct 09 23:35:16 CST 2022, time=2022-10-09, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1919490, encodeId=768e1919490f5, content=<a href='/topic/show?id=4f26341994' target=_blank style='color:#2F92EE;'>#Bio#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=62, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=3419, encryptionId=4f26341994, topicName=Bio)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=12de429, createdName=sunylz, createdTime=Tue Sep 06 21:35:16 CST 2022, time=2022-09-06, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1525593, encodeId=5eb115255938b, content=<a href='/topic/show?id=08548885835' target=_blank style='color:#2F92EE;'>#融合#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=57, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=88858, encryptionId=08548885835, topicName=融合)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=08a911636812, createdName=licz0427, createdTime=Tue Aug 30 05:35:16 CST 2022, time=2022-08-30, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1767926, encodeId=d8841e679269f, content=<a href='/topic/show?id=64f5343e2f' target=_blank style='color:#2F92EE;'>#Biol#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=72, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=3437, encryptionId=64f5343e2f, topicName=Biol)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=446937890434, createdName=12498ebem31暂无昵称, createdTime=Sun Oct 09 23:35:16 CST 2022, time=2022-10-09, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1919490, encodeId=768e1919490f5, content=<a href='/topic/show?id=4f26341994' target=_blank style='color:#2F92EE;'>#Bio#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=62, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=3419, encryptionId=4f26341994, topicName=Bio)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=12de429, createdName=sunylz, createdTime=Tue Sep 06 21:35:16 CST 2022, time=2022-09-06, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1525593, encodeId=5eb115255938b, content=<a href='/topic/show?id=08548885835' target=_blank style='color:#2F92EE;'>#融合#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=57, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=88858, encryptionId=08548885835, topicName=融合)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=08a911636812, createdName=licz0427, createdTime=Tue Aug 30 05:35:16 CST 2022, time=2022-08-30, status=1, ipAttribution=)]
    2022-09-06 sunylz
  3. [GetPortalCommentsPageByObjectIdResponse(id=1767926, encodeId=d8841e679269f, content=<a href='/topic/show?id=64f5343e2f' target=_blank style='color:#2F92EE;'>#Biol#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=72, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=3437, encryptionId=64f5343e2f, topicName=Biol)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=446937890434, createdName=12498ebem31暂无昵称, createdTime=Sun Oct 09 23:35:16 CST 2022, time=2022-10-09, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1919490, encodeId=768e1919490f5, content=<a href='/topic/show?id=4f26341994' target=_blank style='color:#2F92EE;'>#Bio#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=62, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=3419, encryptionId=4f26341994, topicName=Bio)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=12de429, createdName=sunylz, createdTime=Tue Sep 06 21:35:16 CST 2022, time=2022-09-06, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1525593, encodeId=5eb115255938b, content=<a href='/topic/show?id=08548885835' target=_blank style='color:#2F92EE;'>#融合#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=57, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=88858, encryptionId=08548885835, topicName=融合)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=08a911636812, createdName=licz0427, createdTime=Tue Aug 30 05:35:16 CST 2022, time=2022-08-30, status=1, ipAttribution=)]
    2022-08-30 licz0427

相关资讯

柳叶刀重磅:想减少一半癌症死亡,避开这些风险因素即可!

Lancet:2010-19年全球风险因素造成的癌症负担:2019年全球疾病负担研究的系统分析

柳叶刀:吸烟、喝酒和肥胖,导致全球一半的癌症死亡

研究表明,癌症负担仍然是一项重要的公共卫生挑战,吸烟仍然是全球癌症的主要风险因素,而其他导致癌症负担的重要因素也各不相同。

JAMA子刊:27万人随访12年分析:运动可降心血管、癌症风险!但做哪种/做多少最好?大有讲究!

JAMA Netw Open:老年人业余时间身体活动类型与全因、心血管和癌症死亡率风险的关联

Sci Adv:王泽峰团队发现癌症中广泛存在一种全新的长度依赖性剪接失调

共鉴定出了494个癌症相关的短外显子(cancer-associated short exons, CASE)并进行了进一步的深入研究。研究团队利用CASE的剪接开发了一个用于癌症预测的随机森林模型

ESC 2022:预防癌症治疗引起的心脏问题的建议今天发布

2022 年 8 月 26 日:欧洲心脏病学会 (ESC) 首个关于心脏肿瘤学的指南今天在欧洲心脏杂志上在线发布。该建议旨在减少癌症治疗的心脏副作用,以便患者可以安全地接受他们的疗法。

Cancer:为什么是你得癌症,而非别人?这些风险因素需自查

癌症的成因众说纷纭,美国癌症协会通过统计分析近43万名参与者数据,总结影响癌症形成的原因,其中的多种风险因素可人为控制。下面让我们一起对研究结果进行解读。