Nature Biomedical Engineering:体细胞突变的多实例学习用于肿瘤类型分类和微卫星状态预测

2024-02-16 Jenny Ou MedSci原创 发表于陕西省

许多基因组技术生成的数据可以被认为是“大p(特征),小n(样本)”,其中每个样本的可能措施/特征数量大大超过样本数量。

深度学习在一系列生物任务中取得了相当大的进展。然而,对于基因组学数据来说,这一进展仅限于预测基因组中序列元素和位置的特征,如转录因子结合、DNAse-I敏感性和基于组蛋白的修饰,或序列是否作为启动子。在更高层次上进行预测,例如在一系列基因组测量的层面上,因维度的诅咒而变得复杂——高维度空间使数据稀疏,并普遍促进过度拟合。

目前解决这个问题的方法包括通过特征选择手动减少维度,通过奇异值分解、负矩阵分解和各种类型的自动编码器等维度缩小技术,或使用试图减少模型权重的稀疏网络。然而,减少数据的维度或模型的容量可能会产生次优结果。

无论单个基因组测量的特征是如何生成的,目前都会进行一个简单的聚合,如和或均值,以获得样本级向量(代表一组基因组测量)。然后,将随机林或神经网络等模型应用于这些样本向量,以执行手头的样本级机器学习任务。这个过程基本上对从给定样本中得出的集合的每个基因组测量进行同等加权,而事实上,一些特定测量可能更突出。

一种更现代的注意力策略,将基因组测量动态加权到样本级特征向量中,可以识别这些特定测量。此外,根据目前的方法,所有学习都发生在样本层面,并且不可能进行“端到端”培训,这将允许由机器学习任务驱动的基因组测量的新编码策略。

这个监督薄弱的问题,即为单个措施(实例)学习特征,而监督发生在样本级别,是多实例学习(MIL)框架。MIL最近彻底改变了计算病理学领域,允许研究人员识别癌症亚型或起源组织,或预测存活率。癌症生物学领域的其他标签可能包括癌症的存在与否,或对治疗的反应,稀疏的基因组测量可能是躯体突变、循环DNA片段、新肽、RNA/蛋白质修饰、拷贝数改变或甲基化位点。

躯体突变是一个复杂但经过充分研究的基因组测量,已经了解了大部分生物学,并有足够的数据来测试新模型。在构建体细胞突变的特征时,目前对生物学的理解可以很容易地引入,例如利用有关基因或路径的信息。然而,对于给定的任务,可能并不总是清楚已知的生物学适用什么,一些措施可能具有不确定的生物学。

在这些情况下,可以使用测量的基本属性,并允许模型通过关注特定实例和/或实例的学习表示来向我们显示哪些特征是重要的。体细胞突变的一些基本特性是其局部序列上下文,之前通过查看相邻的5′和3′核苷酸来总结,以及其基因组位置,该位置表示为1 Mb bins。

2023年11月2日发表在Nature Biomedical Engineering的文章,介绍了一个用于执行注意力MIL的工具,并演示其对体细胞突变数据的应用。本文使用这个模型来计算突变的基本属性,无论是局部序列上下文还是基因组位置。使用模拟数据,本文探索了一系列任务的各种MIL实现,并将拟议的方法与该领域的传统机器学习方法进行比较。

然后,研究人员将模型应用于肿瘤分类,并学习序列和位置的显著特征,同时超越当前方法的性能。最后,本文将模型与确定微型卫星状态的最先进技术进行比较,尽管可比工具使用特定于任务的先验知识,而拟议的方法没有,但本文的模型表现良好。

在这里,本文展示了一个具有多头注意力的弱监督端到端多实例学习模型,可以训练来编码和聚合体细胞突变的局部序列上下文或基因组位置,从而允许对样本级分类的单个措施的重要性进行建模,从而提供增强的可解释性。

研究结果显示,该模型解决了传统模型失败的合成任务,并在肿瘤类型分类和预测微卫星状态方面实现了一流的性能。通过提高需要基因组数据集汇总信息的任务的性能,多实例深度学习可能会产生生物洞察力。

实例特征载体揭示了已知的癌症生物学

综上所述,许多基因组技术生成的数据可以被认为是“大p(特征),小n(样本)”,其中每个样本的可能措施/特征数量大大超过样本数量。例如,体细胞突变可以发生在基因组的任何地方,从而为每个样本创造数不数的可能独特特征。类似的考虑也适用于循环DNA片段、CHIP-SEQ峰值、甲基化位点或RNA/蛋白质修饰。注意MIL是这些问题的自然解决方案,因为它本质上转移了问题——在提取相关特征时,大量实例数据是一种好处,而不是障碍。

原文出处

Anaya, J., Sidhom, JW., Mahmood, F. et al. Multiple-instance learning of somatic mutations for the classification of tumour type and the prediction of microsatellite status.Nat. Biomed. Eng 8, 57–67 (2024). https://doi.org/10.1038/s41551-023-01120-3

相关资料下载:
[AttachmentFileName(sort=1, fileName=s41551-023-01120-3.pdf)] GetArticleByIdResponse(id=ca0e81353e70, projectId=1, sourceId=null, title=Nature Biomedical Engineering:体细胞突变的多实例学习用于肿瘤类型分类和微卫星状态预测, articleFrom=MedSci原创, journalId=13311, copyright=原创, creationTypeList=[1], summary=许多基因组技术生成的数据可以被认为是“大p(特征),小n(样本)”,其中每个样本的可能措施/特征数量大大超过样本数量。, cover=https://img.medsci.cn/202301009/1696894728480_4754896.jpeg, authorId=0, author=Jenny Ou, originalUrl=, linkOutUrl=, content=<p><span style="color: #595959; font-size: 14px;"><span style="color: #3573b9;">深度学习</span>在一系列生物任务中取得了相当大的进展。然而,对于基因组学数据来说,这一进展仅限于<span style="color: #3573b9;">预测基因组</span>中序列元素和位置的特征,如转录因子结合、DNAse-I敏感性和基于组蛋白的修饰,或序列是否作为启动子。在更高层次上进行预测,例如在一系列基因组测量的层面上,因维度的诅咒而变得复杂&mdash;&mdash;高维度空间使数据稀疏,并普遍促进过度拟合。</span></p> <p><span style="color: #595959; font-size: 14px;"><img class="wscnph" style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20240215/1708034389805_8624070.png" /></span></p> <p><span style="color: #595959; font-size: 14px;">目前解决这个问题的方法包括通过特征选择手动减少维度,通过奇异值分解、负矩阵分解和各种类型的自动编码器等维度缩小技术,或使用试图减少模型权重的稀疏网络。然而,减少数据的维度或模型的容量可能会产生次优结果。</span></p> <p><span style="color: #595959; font-size: 14px;">无论单个基因组测量的特征是如何生成的,目前都会进行一个简单的聚合,如和或均值,以获得样本级向量(代表一组基因组测量)。然后,将随机林或神经网络等模型应用于这些样本向量,以执行手头的样本级机器学习任务。这个过程基本上对从给定样本中得出的集合的每个基因组测量进行同等加权,而事实上,一些特定测量可能更突出。</span></p> <p><span style="color: #595959; font-size: 14px;">一种更现代的注意力策略,将基因组测量动态加权到样本级特征向量中,可以识别这些特定测量。此外,根据目前的方法,所有学习都发生在样本层面,并且不可能进行&ldquo;端到端&rdquo;培训,这将允许由机器学习任务驱动的基因组测量的新编码策略。</span></p> <p><span style="color: #595959; font-size: 14px;">这个监督薄弱的问题,即为单个措施(实例)学习特征,而监督发生在样本级别,是<span style="color: #3573b9;">多实例学习(MIL)框架</span>。MIL最近彻底改变了计算病理学领域,允许研究人员识别癌症亚型或起源组织,或预测存活率。癌症生物学领域的其他标签可能包括癌症的存在与否,或对治疗的反应,稀疏的基因组测量可能是躯体突变、循环DNA片段、新肽、RNA/蛋白质修饰、拷贝数改变或甲基化位点。</span></p> <p><span style="color: #595959; font-size: 14px;">躯体突变是一个复杂但经过充分研究的基因组测量,已经了解了大部分生物学,并有足够的数据来测试新模型。在构建体细胞突变的特征时,目前对生物学的理解可以很容易地引入,例如利用有关基因或路径的信息。然而,对于给定的任务,可能并不总是清楚已知的生物学适用什么,一些措施可能具有不确定的生物学。</span></p> <p><span style="color: #595959; font-size: 14px;">在这些情况下,可以使用测量的基本属性,并允许模型通过关注特定实例和/或实例的学习表示来向我们显示哪些特征是重要的。体细胞突变的一些基本特性是其局部序列上下文,之前通过查看相邻的5&prime;和3&prime;核苷酸来总结,以及其基因组位置,该位置表示为1 Mb bins。</span></p> <p><span style="color: #595959; font-size: 14px;"><strong><span style="color: #3573b9;">2023年11月2日</span></strong>发表在<em><strong><span style="color: #3573b9;">Nature Biomedical Engineering</span></strong></em>的文章,介绍了一个用于执行注意力MIL的工具,并演示其对体细胞突变数据的应用。本文使用这个模型来计算突变的基本属性,无论是局部序列上下文还是基因组位置。使用模拟数据,本文探索了一系列任务的各种MIL实现,并将拟议的方法与该领域的传统机器学习方法进行比较。</span></p> <p><span style="color: #595959; font-size: 14px;">然后,研究人员将模型应用于肿瘤分类,并学习序列和位置的显著特征,同时超越当前方法的性能。最后,本文将模型与确定微型卫星状态的最先进技术进行比较,尽管可比工具使用特定于任务的先验知识,而拟议的方法没有,但本文的模型表现良好。</span></p> <p><span style="color: #595959; font-size: 14px;">在这里,本文展示了一个具有多头注意力的弱监督端到端多实例学习模型,可以训练来编码和聚合体细胞突变的局部序列上下文或基因组位置,从而允许对样本级分类的单个措施的重要性进行建模,从而提供增强的可解释性。</span></p> <p><span style="color: #595959; font-size: 14px;">研究结果显示,该模型解决了传统模型失败的合成任务,并在肿瘤类型分类和预测微卫星状态方面实现了一流的性能。通过提高需要基因组数据集汇总信息的任务的性能,多实例深度学习可能会产生生物洞察力。</span></p> <p><span style="color: #595959; font-size: 14px;"><img class="wscnph" src="https://img.medsci.cn/20240215/1708034595541_8624070.webp" /></span></p> <p style="text-align: center;"><span style="color: #888888; font-size: 12px;">实例特征载体揭示了已知的癌症生物学</span></p> <p><span style="color: #595959; font-size: 14px;">综上所述,许多基因组技术生成的数据可以被认为是&ldquo;大p(特征),小n(样本)&rdquo;,其中每个样本的可能措施/特征数量大大超过样本数量。例如,体细胞突变可以发生在基因组的任何地方,从而为每个样本创造数不数的可能独特特征。类似的考虑也适用于循环DNA片段、CHIP-SEQ峰值、甲基化位点或RNA/蛋白质修饰。注意MIL是这些问题的自然解决方案,因为它本质上转移了问题&mdash;&mdash;在提取相关特征时,大量实例数据是一种好处,而不是障碍。</span></p> <p><span style="color: #888888; font-size: 12px;">原文出处</span></p> <p><span style="color: #888888; font-size: 12px;">Anaya, J., Sidhom, JW., Mahmood, F. et al. Multiple-instance learning of somatic mutations for the classification of tumour type and the prediction of microsatellite status.Nat. Biomed. Eng 8, 57&ndash;67 (2024). https://doi.org/10.1038/s41551-023-01120-3</span></p> <p><!-- notionvc: 942bafd3-ed7a-41c4-9988-3c9cbdb1ad1c --></p>, belongTo=, tagList=[TagDto(tagId=8198, tagName=体细胞突变), TagDto(tagId=20860, tagName=肿瘤类型), TagDto(tagId=21978, tagName=微卫星)], categoryList=[CategoryDto(categoryId=5, categoryName=肿瘤, tenant=100), CategoryDto(categoryId=69, categoryName=检验病理, tenant=100), CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=1557, appHits=5, showAppHits=0, pcHits=24, showPcHits=1552, likes=0, shares=0, comments=0, approvalStatus=1, publishedTime=Fri Feb 16 09:53:00 CST 2024, publishedTimeString=2024-02-16, pcVisible=1, appVisible=1, editorId=6556185, editor=检验病理新前沿, waterMark=0, formatted=0, deleted=0, version=3, createdBy=dac48624070, createdName=JennyOu, createdTime=Fri Feb 16 06:03:42 CST 2024, updatedBy=92910, updatedName=rayms, updatedTime=Fri Feb 16 09:46:48 CST 2024, ipAttribution=陕西省, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=s41551-023-01120-3.pdf)])
s41551-023-01120-3.pdf
版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2187615, encodeId=7239218e61580, content=<a href='/topic/show?id=634e2664446' target=_blank style='color:#2F92EE;'>#体细胞突变#</a> <a href='/topic/show?id=4ca98305122' target=_blank style='color:#2F92EE;'>#肿瘤类型#</a> <a href='/topic/show?id=9cf9505582e' target=_blank style='color:#2F92EE;'>#微卫星#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=24, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=26644, encryptionId=634e2664446, topicName=体细胞突变), TopicDto(id=50558, encryptionId=9cf9505582e, topicName=微卫星), TopicDto(id=83051, encryptionId=4ca98305122, topicName=肿瘤类型)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Fri Feb 16 09:46:48 CST 2024, time=2024-02-16, status=1, ipAttribution=陕西省)]

相关资讯

Nat Genet:外显子测序显示数种体细胞突变可导致子宫内膜癌

  近期发表的《自然—遗传学》报道了数种可影响子宫内膜,导致子宫内膜癌发生的复发性体细胞突变。   子宫内膜癌是世界第六大女性常见癌症。Daphne Bell等人对13种主要的浆液性子宫内膜肿瘤进行了外显子测序。他们对18种基因进行患病筛查,发现另有40种浆液性子宫内膜肿瘤存在复发性。通过主要 组织学亚型的比较,Bell和同事在23个透明细胞、67个子宫内膜样本和18个混合型子宫内膜肿瘤对

Eur Respir J:从不吸烟者肺癌体细胞突变与职业暴露有何关系?

鉴于职业暴露在亚群中的最小作用,研究人员得出结论:即职业暴露对从不吸烟的肺癌患者分子模式影响十分轻微。特别是石棉暴露的参与者EGFR突变的几率很低。

Blood:新一代测序可用于监测造血干细胞移植后的AML患者的复发风险

新一代测序(NGS)已被应用于鉴定临床相关的体细胞突变和区分急性髓系白血病(AML)的亚型。化疗后持续的等位基因负担与较高的复发率相关,但采用异基因造血干细胞移植(HCT)的AML患者的等位基因负担尚未进行纵向检验。现TaeHyung Kim等研究人员对NGS用于监测采用HCT治疗的AML患者的可用性进行评估。研究人员采用靶向基因面板,对104位已进行HCT治疗的AML患者的样本(分别于确诊时、H

Oncologist:阿拉伯女性乳腺癌患者体细胞突变的分子谱和频率模式

该研究阐明了阿拉伯女性乳腺癌患者体细胞突变的频率,表明跟西方人群有一定的差异。这些数据需要更大规模的流行病学研究,评估此类突变在预后和个性化管理中的作用。

J Autoimmunity:早期系统性硬化症的基因组不稳定性

在伴有严重皮肤和/或肺部受累的早期SSc患者的皮肤中存在大量体细胞突变。体细胞突变具有类似时钟的“衰老”特征,并影响许多癌症驱动基因。癌症驱动基因突变可能在 SSc的发病机制中发挥重要作用。

ARD:低比率体细胞NLRC4突变导致迟发性自身炎症性疾病

该研究报告了一例由一小部分白细胞中的体细胞NLRC4突变引起的迟发性自身炎症性疾病。在单细胞转录组水平上系统地分析了这种情况,并揭示了骨髓细胞中炎症反应的特异性增强。

人老心不老?最新研究鉴定人类心脏衰老过程中积累体细胞突变

这项研究结果或帮助人们理解心脏功能会如何随着年龄增长而退化。

Blood:alloHCT前进行NGS-MRD分析,可较准确预测AML患者预后

中心点:错误-纠正型NGS-MRD可应用于大部分AML患者,而且敏感度高。alloHCT前对CR样本进行NGS-MRD分析可高度预测alloHCT后的预后。摘要:由于缺乏定量实时PCR的合适标志物,大约60%的急性髓系白血病(AML)患者未建立可分子检测的残留病灶(MRD)评估。为克服这一限制,Felicitas Thol等人建立了一种错误-纠正型二代测序(NGS)MRD方法,可应用于任何体细胞基

衰老,是因为细胞太卷了?Nature:人到70岁,12-18个干细胞完成一半的造血

Nature:造血干细胞在人的一生中不断地、缓慢地累积基因突变,到了70岁后人体的血液成分及造血功能会急剧恶化,也就是说,70岁是一个年龄的分水岭,古稀老人会明显感觉到身体变得虚弱。

Ann Oncol:NSCLC患者使用外泌体RNA联合循环肿瘤DNA可改善体细胞突变的检测结果

使用循环肿瘤DNA(ctDNA)来检测体细胞突变的主要局限性在于一部分癌症患者的ctDNA水平较低。本研究探究了exosomal RNA(exoRNA)和无细胞DNA(cfDNA)联合分离是否可以改善用于检测NSCLC患者EGFR突变的血液液态活检效果。研究纳入了在TIGER-X(NCT01526928)登记的84名患者,收集预处理肿瘤和血浆样本。分离exoRNA和cfDNA(exoNA)以分析突