Nat Commun:基于肿瘤基因组与表观组特征的整合模型,有效提高cfDNA的癌症诊断及组织溯源性能

2023-06-15 测序中国 测序中国 发表于上海

该技术使用了先进的人工智能(AI)算法来分析cfDNA和表观基因组的突变密度和模式,其在早期癌症检测和组织原定位中准确性优越。

据统计,癌症是造成70岁以下患者死亡的第一大原因。癌症越早诊断、治疗,患者的预后和生存率就会越好。因此,提高癌症的早期检测效率及准确性对癌症患者的生存至关重要。近年来,基于细胞游离DNA(cfDNA)的无创癌症筛查技术发展迅速,其在多种癌症的早期检测和溯源中具有良好的应用前景。

与靶向深度测序相比,全基因组测序(WGS)在检测低负荷疾病方面更敏感。近期研究也证明了在全基因组水平上筛选cfDNA是有效且可行的。依据原始肿瘤图谱,利用全基因组累积信号,可以对微小残留疾病进行超灵敏监测。但这种方法只能追踪患者肿瘤组织的初始突变谱,无法识别从头突变。迄今为止,由于cfDNA的从头突变调用可置信度较低和过滤不准确,cfDNA WGS尚未用于新发癌症检测。此外,与肿瘤相关的表观基因组特征尚未在整个基因组中被充分地探索过,也未曾用于cfDNA的多肿瘤检测。

近期,基因诊断公司GC Genome Corporation研究团队及合作者在Nature Communications上发表了题为“Integrative modeling of tumor genomes and epigenomes for enhanced cancer diagnosis by cell-free DNA”的文章,公布了该公司基于人工智能的新型液体活检技术。该技术使用了先进的人工智能(AI)算法来分析cfDNA和表观基因组的突变密度和模式,其在早期癌症检测和组织原定位中准确性优越。

文章发表在Nature Communications

研究团队首先进行了cfDNA全基因组测序,在MGI和Illumina测序平台上分别以平均5×和2.5×测序深度生成了包含3,366个样本的训练/验证数据集(较大批次的样本作为训练队列,剩余批次用于验证)。其中,患者样本2,125个、正常对照样本1,241个,共涵盖9种癌症类型。此外,研究团队还生成了一个基于20,529个健康样本的cfDNA参考数据集,用于发现真正肿瘤来源的DNA,过滤潜在的生物和技术噪音,以及一个由208个癌症和214个正常对照样本组成的外部验证cfDNA数据集(DELFI数据集)。

接下来,利用开发的“DELFI”算法结合训练数据集,研究团队构建了“基因组模型”和“表观基因组模型”(图1)。基因组模型集成了来自健康队列的大规模参考cfDNA数据以及PCAWG项目的肿瘤组织突变数据,以突变分布作为模型特征;表观基因组模型整合了基于转座酶可及染色质测序(ATAC-seq)的泛癌全基因组染色质图谱,以染色质组织作为模型特征。

基因组模型采用了彻底的突变筛选过程,将筛选后突变集中的局部突变密度(LVD)和突变类型作为模型的输入。为评估LVD模式,研究团队从2,754个组织WGS样本中计算出了癌症类型特异性LMD值,确定了癌症类型特异性高LMD区域和低LMD区域。基于过滤的突变,共计算了2,726个LVD特征和150个突变类型特征,并使用深度神经网络对这些基因组特征进行预测建模。

对于表观基因组模型,研究团队通过处理公共数据库中431个样本的ATAC-seq数据来识别组织特异性NDR(核小体缺失区),以分析癌症类型特异性cfDNA缺失模式。将鉴定出的NDR处的cfDNA片段数据转化为三维V-plot20图像,使用CNN对图像数据进行预测建模。

图1. 基因组模型(左)和表观基因组模型(右)的概念及流程示意图

研究团队使用上述验证数据集对模型进行了评估,包括基因组模型和表观基因组模型的单独评估,以及两个模型整合起来的效果。

研究团队在每个训练队列中训练和评估了DELFI算法,并通过MGI验证队列和Illumina验证队列验证了模型的稳健性(图2)。基因组模型在两个MGI队列中性能均优于其他所有方法。对于Illumina数据集,基因组模型和表观基因组模型分别在训练和验证队列中显示出最佳性能。在MGI、Illumina两个数据集中,组合模型性能在显示较好。

研究团队还在不同分期和癌症类型中评估了上述模型的癌症检测敏感性,发现其检测出I–II期癌症的灵敏度与晚期检测相当,特别是基因组和组合模型。在95%的特异性下,组合模型对MGI数据集、Illumina数据集的敏感性分别为91.1%79.6%。此外,研究团队通过DELFI数据集证明了模型在早期癌症检测中的优越性:在95%的特异性下,组合模型对I期癌症的敏感性为98.2%。

图2. 在癌症检测方面的性能

接下来,研究团队在超30种肿瘤类型中评估了模型定位起源组织的准确性 (图3)。对于MGI和Illumina队列,基因组和表观基因组模型的性能均优于现有方法,且两个模型的结合进一步提升了性能。此外,对于具有大量样本的癌症类型,模型定位的准确性往往更高。

 

图3. 模型在起源组织定位方面的性能

研究团队评估参考肿瘤组织数据和参考正常cfDNA数据对模型性能的贡献(图4)。首先评估了突变过滤的效果,发现突变过滤显著提高了癌症检测和定位的准确性,同时也表明标记潜在的非肿瘤突变对于准确的LVD估计至关重要。在癌症检测和定位方面,具有选定的高或低LMD区域的基因组模型性能优于具有相同随机区域数量的模型。

与基因组模型不同,表观基因组模型只能使用选定的区域内构建。在癌症检测和定位方面,使用组织特异性NDR片段化数据构建的表观基因组模型,比使用来自相同随机区域片段化数据构建的模型具有更高的准确性。

图4. 肿瘤和cfDNA参考数据的贡献

研究团队衡量了预测模型中的每个特征对给定实例预测的影响。对用于肿瘤预测的基因组模型,在肿瘤组织突变率较高的基因组区域中识别的cfDNA突变,增加预测给定样本为癌症的可能性。对用于肿瘤定位的基因组模型,在给定癌症类型的区域中,cfDNA样本的高LVD值增加了模型预测这些样本为相应癌症类型的可能性。结果显示,在基因组模型中,样本按特征(即肿瘤或正常)聚类,而非按队列聚类。这些结果证实,基因组模型能够识别肿瘤和正常cfDNA之间的生物学差异,但不能识别由于不同测序平台或实验程序产生的技术偏差。

图5. 基因组模型的解释

研究团队对表观基因组模型进行了上述相同的分析,发现在癌症检测和起源组织定位方面,样本倾向于按特征(即肿瘤或正常)而非按数据来源聚类。与基因组模型类似,表观基因组模型可以区分肿瘤和正常cfDNA之间的生物学差异,但不能识别由于测序平台或实验程序不同产生的技术偏差。

图6. 表观基因组模型的解释

综上所述,研究团队展示了通过整合大规模参考数据集,以提高癌症检测的灵敏度;其次,发现了对于基于cfDNA癌症诊断有效的基因组和表观基因组特征;并依据该特征构建了基因组模型、表观基因组模型以及组合模型。组合模型检测早期癌症(包括胰腺癌)与晚期癌症的灵敏度相当。该研究从癌症的遗传和表观遗传特征的角度研究了这些特征与肿瘤生物学的相关性,为基于cfDNA的准确癌症诊断奠定了基础,尤其是在早期阶段中。

参考来源:

Bae, M., Kim, G., Lee, TR. et al. Integrative modeling of tumor genomes and epigenomes for enhanced cancer diagnosis by cell-free DNA. Nat Commun 14, 2017 (2023). https://doi.org/10.1038/s41467-023-37768-3

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

Science Advances:研究证实cfDNA中含有肿瘤特异性TF结合信息,可利用血浆绘制肿瘤调控图谱

来自美国科罗拉多大学的研究团队绘制了血浆cfDNA中单个结合位点的TF结合图谱,定义了反映不同ER+疾病状态的cfDNA特征。

Sci Rep:cfDNA与长时间体外循环心脏手术后的内皮损伤相关

这项研究证明在CPB持续时间长的心脏手术患者中,血浆cfDNA升高有助于评估CPB介导的不利影响。

利用cfDNA检测21三体在双胎和单胎中结果相似 NIPT检测范围进一步扩大

胎儿染色体异常无创产前基因检测是利用国际领先的高通量测序平台,检测胎儿染色体异常的新一代产前检测技术。通过采集孕妇外周血,对血浆中的游离DNA片段(包含胎儿游离DNA)进行测序,结合生物信息分析,计算出胎儿患染色体非倍体的疾病风险。此技术能同时检测常见的染色体三体综合征:唐氏综合征(T21)、爱德华氏综合征(T18)、帕陶氏综合征(T13)。1997年,Lo等人(Lo Y. M. et al.

Nat Commun:尿液中游离DNA是监测尿道感染的通用分析物

泌尿道感染是人类中最常见的感染之一。最近,有研究人员在细菌和病毒尿路感染中,测试了用尿液游离DNA(cfDNA)来全面监测宿主和病原微生物动态,并进行了相关研究。研究人员从141个尿液样本中分离出了cfDNA,这些尿液样本来自一个包含有82名肾移植患者的群体,并且进行了二代测序分析。研究发现,尿液cfDNA包含有微生物组中细菌和病毒、药物敏感性、细菌生长动态、肾移植损伤和对感染的宿主响应的丰富的信

EBioMedicine:胰腺癌检测研究新成果

随着“精准医学”的概念被逐渐运用至肿瘤领域中,以游离DNA( cell-free DNA, cfDNA)检测为代表的“液体活检”技术正成为恶性肿瘤、产前诊断和器官移植排异监测的新兴标志物。近日,复旦大学附属中山医院王小林教授研究团队在国际著名期刊Lancet杂志子刊EBioMedicine上发表了题为《通过富集短片段cfDNA提高胰腺癌的检出》(“Enrichment of short mutan

J Clin Oncol:外周血cfDNA中的肿瘤分数可以预测转移性三阴性乳腺癌的预后

三阴性乳腺癌只占乳腺癌总体的15%,但却导致了25%以上但乳腺癌相关死亡。过去20年,TNBC患者的总生存没有显着变化。目前,化疗是TNBC主要的治疗手段。对TNBC进行基因组学分析,可能可以发现潜在的生物标志物,指导治疗或预测预后。近日,发表在《JCO》杂志上的研究,采用创新性的方法对转移性三阴性乳腺癌中外周血标本进行检测,发现了重要的预后指标。