Sci Transl Med:机器学习+扩增子片段组测序实现灵敏的癌症早期检测

2024-03-11 测序中国 测序中国 发表于上海

研究发现,A-PLUS的部分功效可以归因于一个单一的特征——实体癌患者cfDNA中Alu元件的整体减少。

Alu元件是约300个碱基对的短散在元件(SINE),在整个人类基因组中分布超过100万个拷贝。虽然Alu元件在生物学和进化中的作用正在被探索,但部分Alu元件已被证明参与基因调控和结构变化。在癌细胞中,Alu元件可通过同源重组参与结构变化,在肿瘤进展期间低甲基化,并且该特征已被并入通过浆细胞游离DNA(cfDNA)分析的早期癌症检测方法。

理论上,全基因组测序(WGS)可以用于评估Alu元件,但开发相应的预测算法非常具有挑战性,这些挑战主要来自各元件彼此的相似性以及难以准确地鉴定。此前,美国约翰·霍普金斯大学医学院的科研团队开发了一种RealSeqS测序方法,可用于评估Alu元件的拷贝数变化。RealSeqS方法通过单个引物扩增约350,000个重复元件来评估cfDNA的非整倍性,提供了优于WGS的优势,包括更简单的工作流程,不需要构建文库,计算分析速度更快,单个Alu基因座的测序覆盖率更高等。

研究团队假设,对RealSeqS获得的大量测序数据进行公正的评估可能会揭示癌症患者和非癌症患者血浆样本之间的其他差异。这一假设通过一种名为A-PLUS的机器学习方法的开发进行了验证。研究团队利用在包括11种癌症类型的一系列病例对照样本集中开发并验证了该方法。在验证队列中,A-PLUS对11种不同癌症类型的敏感性为40.5%,特异性为98.5%。将A-PLUS与非整倍体和8种常见蛋白质生物标志物结合,检测出51%的癌症,特异性为98.9%。研究发现,A-PLUS的部分功效可以归因于一个单一的特征——实体癌患者cfDNA中Alu元件的整体减少。该成果已发表在Science Translational Medicine上,文章题为“Machine learning to detect the SINEs of cancer”。

虽然A-PLUS的性能还需要更多的验证研究来证实,但其敏感性和特异性与已有的Galleri检测等癌症筛查方法几乎相当。针对癌症的早期检测,研究团队相信A-PLUS能够成为比现有基于表观遗传学和片段组学检测方法更简单、更有效的新工具。

图片

文章发表在Science Translational Medicine

主要研究内容

A-PLUS旨在检测cfDNA重复区域的差异,研究人员能够使用机器学习将其调整为正常和癌症相关信号的鉴别器。与其他从WGS中获得片段信号的方法不同,A-PLUS使用基于扩增子的方法,可以对基因组的目标区域进行更深层次的测序。

该团队在开发A-PLUS时纳入了几项原则:首先,试图识别和消除与技术噪音、种族、性别和批次差异相关的混杂位点;其次,使用主成分分析(PCA)缩小了特征数量;第三,使用了更多了样本量;第四,将样本分为四个预先指定且不重叠的队列,以最大限度地减少过度拟合。队列1用于选择特征并训练机器学习模型;队列2用于建立将样本评分为阳性或阴性的阈值;队列3用于独立测试或验证模型效果;队列4来评估评分系统的再现性。

图片

图1. 整体研究概述

队列1:

A-PLUS特征选择和模型训练

队列1由354名无癌个体和202名实体瘤患者组成。为了减少过拟合的可能性并在评价样本之前建立质量指标,研究人员使用先前发布的指标和阈值纳入患者,而不是因为与A-PLUS性能相关的任何指标而排除任何参与者。

训练的重要要素包括reads深度的标准化和去除覆盖不足的扩增子,以及去除基于T检验不稳定的扩增子数据。经过这些步骤,原来的350000个位点中有121197个保留下来。然后使用PCA降低维度,并使用支持向量机来识别前60个PCA特征。

队列2:

分析整合和阈值测定

队列2包括来自704名实体瘤患者和958名非癌对照个体的样本。在血液采集时没有转移,并且与队列1一样,癌症包括来自食道、胃、乳腺、结直肠、肺、卵巢和胰腺的癌症。在队列2中,对应于对照样本中99%特异性的A- PLUS评分为0.28,在该阈值下,来自患有食道癌和胃癌患者的样本具有最高的灵敏度。

研究团队还在队列2中生成了全局非整倍体评分(GAS)。GAS使用不同的机器学习方法来生成反映39个染色体臂的获得或丢失的单个评分。GAS阈值大于0.64在队列2的对照样本中产生99%特异性。在99%特异性下,食管癌和肝癌的灵敏度最高(43% CI:26-62%和37% CI:17-61%),乳腺癌的灵敏度最低(6% CI:4-10%)。在GAS测定评分为阴性的687个癌症样本中,318个在A-PLUS测定中评分为阳性;相反,81%在GAS中得分为阳性的癌症样本在A-PLUS中得分也为阳性。此外,A-PLUS阳性非癌样本在GAS中得分为阳性的现象没有出现。

然后,研究团队使用逻辑回归将A-PLUS和GAS与蛋白质生物标志物整合到多个分类器中,使用10倍交叉验证评估性能,发现阈值大于0.87产生99%特异性。食管癌和肝癌患者的敏感性最高,乳腺癌患者的敏感性最低。

图片

图2. 队列2血浆样品中的癌症检测

队列3:

独立验证

队列3样本来自2960例个体,包括1167例患有11种类型实体瘤的患者:乳腺癌、结直肠癌、食管癌、头颈部癌、肾癌、肺癌、卵巢癌、胰腺癌、前列腺癌、胃癌和子宫癌。

研究团队使用队列2定义的99%阈值评估队列3中所选测定方法的性能。对于A-PLUS,在队列3中观察到的特异性(98.5%)略低于队列2预期的99%。在队列2和队列3中评估的七种癌症类型中,癌症类型敏感性相似。在队列2和3中,单独非整倍体以及单独蛋白质生物标志物的灵敏度和特异性也相似。结合A-PLUS、非整倍性和蛋白质方法以98.9%的特异性能够检测到以下器官中的癌症:食道癌、胰腺癌、卵巢癌、胃癌和结直肠癌。

研究团队随后进行了比较分析,发现与非整倍体或蛋白质生物标志物相比,A-PLUS对阳性检测的贡献更大,A-PLUS可检测到41%的非整倍体或蛋白质未检测到的样品。

图片

图3. 队列3血浆样品中的癌症检测

队列4:

再现性

最后,研究团队在来自队列2或队列3的1686名个体中评估了A-PLUS和GAS测定(均基于RealSeqS测序数据)的技术再现性。所有样本均为在同一时间点从同一患者采集的技术重复样本。

使用队列2定义的阈值,1632对中有95.8%的评分一致(阳性或阴性),A-PLUS的Cohen kappa为0.56。A-PLUS的不完全一致性反映了特异性和灵敏度之间的平衡。有目的地将特异性设置为非常高(99%),这可能会限制灵敏度。因此,在相同的预设阈值下,重复检测的特异性之间的差异仅为1.2%,而重复检测的灵敏度之间的差异超过10倍。

对于GAS,99.3%的配对是一致的,其中Cohen kappa为0.66。与队列3相比,队列4中GAS的敏感性较低,这是由于队列4中的大多数癌症病例来自乳腺癌患者,而队列3中只有6%的癌症来自乳腺癌,在队列3中,乳腺癌的GAS最低。

图片

图4. 在技术重复中的再现性

结 语

对SINE的代表性元件Alu的评估可以增加非整倍性检测癌症的能力。在RealSeqS数据中,在设定的特异性下,A-PLUS算法相对于单独的非整倍体所实现的灵敏度显著增强。研究团队将来自癌症患者和无癌对照的样本预先指定为四个组群,用于模型训练、分析整合以及阈值确定、验证和再现性。在验证队列中,Alu元件的评估具有提高几种用于早期癌症检测方法性能的潜力。

文章共同第一作者Kamel Lahouel表示:“自从完成了当前文章中描述的工作以来,希望之城团队已经创建了一个新版本的A-PLUS,用来检测癌症和对照组之间片段长度差异的信号。”据悉,基于该方法已经开展了一项前瞻性临床试验,旨在衡量其在65-75岁成年人中检测癌症的有效性。

论文原文:

Douville C, Lahouel K, Kuo A, Grant H, et,. Machine learning to detect the SINEs of cancer. Sci Transl Med. 2024. doi: 10.1126/scitranslmed.adi3883.

https://www.science.org/doi/10.1126/scitranslmed.adi3883

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2192535, encodeId=a5472192535d3, content=<a href='/topic/show?id=7d806121594' target=_blank style='color:#2F92EE;'>#机器学习#</a> <a href='/topic/show?id=5736654581e' target=_blank style='color:#2F92EE;'>#测序#</a> <a href='/topic/show?id=d8dbe130197' target=_blank style='color:#2F92EE;'>#癌症#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=20, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61215, encryptionId=7d806121594, topicName=机器学习), TopicDto(id=65458, encryptionId=5736654581e, topicName=测序), TopicDto(id=71301, encryptionId=d8dbe130197, topicName=癌症)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Mon Mar 11 13:53:01 CST 2024, time=2024-03-11, status=1, ipAttribution=上海)]

相关资讯

J Orthop Surg Res:基于机器学习的多序列MRI放射组学在前交叉韧带撕裂诊断中的应用

本文目的比较不同机器学习算法在多序列磁共振成像(MRI)放射组学检测前交叉韧带(ACL)撕裂中的诊断能力。此外,本研究旨在建立并验证最佳诊断模型。

IJS:西湖大学罗定存教授等团队利用多维度机器学习辅助甲状腺乳头状癌风险分层

研究团队采用机器学习方法,利用蛋白质、基因、免疫和临床这四维度信息成功构建甲状腺乳头状癌术前风险评估分类器,在术前能够良好区分低危和中高危甲状腺乳头状癌患者,并在回顾性和前瞻性研究中有效验证。

【协和医学杂志】医学数字孪生方法及其应用

我国医学数字孪生研究尚处于起步阶段,本文通过梳理国内外数字孪生在医学领域中的方法和应用,以期为我国开展医学数字孪生研究提供参考。

European Radiology:基于深度学习增强CT的腮腺良恶性肿瘤鉴别诊断

近年来,机器学习(ML)在医学影像领域受到广泛关注;研究表明,计算机辅助诊断模型对放射科医生的疾病诊断有很大帮助。

使用机器学习和逻辑回归进行组合,预测接受健康体检的540万名脂肪肝病患者动脉颈动脉斑块风险

本研究旨在结合机器学习(ML)和Logistic回归的优势,建立一种简单、直观的预测模型,以识别脂肪肝病人群中具有颈部动脉斑块风险的个体,并提供风险分级的分界点,为颈动脉超声检测提供指导。

Int. J. Ment. Health Addiction:使用集成机器学习方法预测海洛因依赖人群的海洛因过量、缓解、使用和死亡风险

就其对结局的重要性水平而言,最一致地排在前10位的变量包括:年龄;年龄首先变高,使用海洛因或注射;性创伤;完成学业的年限;监狱历史;严重的精神健康残疾;过去一个月的刑事参与;和过去一个月的苯二氮卓类药

Alz Res Therapy:血浆代谢谱预测未来痴呆症和痴呆症亚型——对 274 160 名参与者进行的前瞻性分析

本研究进行迄今为止最大规模的痴呆代谢组调查,首次揭示了代谢物的重要性排序,并强调了血浆代谢物对痴呆预测的贡献。

ART:揭示认知状态的声音——基于机器学习的阿尔茨海默病谱系语音分析

一种简短且经济有效的 SS 方案在区分不同程度的认知障碍和预测注意力缺失症谱内常见认知领域表现方面的潜力。

European Radiology:一种用于脑转移自动检测和分割的机器学习构建和评估

门控高分辨率卷积神经网络(GHR-CNN)通过门控机制将高层次的抽象信息和低层次的特征融合在一起,特征植入的上采样过程保证了与原始图像相同的分辨率,在很大程度上减少了细节的损失,可以有效提高网络的特征

Mayo Clin Proc:机器学习通过超声心动图诊断肺动脉高压

通过机器学习模型,本研究在缺乏三尖瓣反流速度信息的情况下,基于超声心动图数据成功预测了肺动脉高压的发生,为快速而准确的PH筛查提供了潜在的临床应用前景。