PNAS:基于甲基化图谱及深度学习模型,实现cfDNA组织特异性定性及定量研究

2023-07-25 测序中国 测序中国 发表于上海

研究团队开发了第一个cfDNA监督组织反卷积方法,一个基于深度神经网络(DNN) 的模型cfSort,其可用于敏感和稳健地定量cfDNA中的组织成分。

组织中死亡的细胞会将其DNA作为细胞游离DNA(cfDNA)释放到血液中。因此,解析cfDNA的组织起源,在辅助疾病诊断、预后和治疗监测方面具有巨大的临床潜力。cfDNA检测提供了一种非侵入性的、全面的身体所有组织的健康状况检测的方法。

由于DNA甲基化的组织特异性,cfDNA可以根据其甲基化模式追溯到其起源的组织,一些研究提出了基于甲基化的组织反褶积方法来估计组织特异性cfDNA的比例。虽然cfDNA的反褶积研究前景广阔,但仍面临着挑战:1) 来自实体器官的cfDNA仅占cfDNA的一小部分,因此cfDNA中病理器官的信号通常较弱;2) 体内所有组织都可以释放cfDNA,为了得到准确的组织反褶积,需要尽可能多组织类型的联合反褶积,而不是只对少数组织类型进行联合反褶积。

近日,加州大学洛杉矶分校研究团队与斯坦福大学团队、EarlyDiagnostics Inc公司团队等合作在PNAS发表了题为“Comprehensive tissue deconvolution of cell-free DNA by deep learning for disease diagnosis and monitoring”的文章。为了充分利用组织cfDNA的临床潜力,研究团队报告了一个基于521个非癌症组织样本的全面的高分辨率组织甲基化图谱,涵盖29种主要的人体组织类型。基于丰富的组织甲基化图谱,研究团队开发了第一个cfDNA监督组织反卷积方法,一个基于深度神经网络(DNN) 的模型cfSort,其可用于敏感和稳健地定量cfDNA中的组织成分。该甲基化图谱解决了组织特异性甲基化研究的缺口,cfSort模型解决了现有反褶积方法的技术局限性,有助于提高cfDNA组织反褶积的敏感性和准确性,提高组织衍生cfDNA的临床应用价值,将在疾病检测和监测中具有广泛的研究和临床应用。

图片

文章发表在PNAS

主要研究内容

01 构建全面的组织甲基化图谱

研究人员纳入了来自基因型-组织表达(GTEx)项目的521个非癌症个体组织样本的甲基化数据(RRBS),涵盖了29种主要的人体组织。基于这些RRBS数据,研究人员在DNA片段水平上系统地发现了组织特异性甲基化标记物。

为了构建一个全面的组织甲基化图谱,研究人员采用了三种策略,得到了三种可以覆盖几乎所有差异组织模式的标记类型。对于每种策略,研究人员对标记物在组织样本中的一致性进行排序,即显示组织特定甲基化模式的样本数量。三种策略得到的组织特异性甲基化标记物相互补充。最后将这些标记物结合起来构建组织特异性甲基化图谱。

图片

图1. 筛选组织特异性甲基化的三种策略。

02 甲基化图谱的组织特异性验证

研究团队从四个方面用独立的数据源验证了组织标记图谱的准确性。1)组织特异性甲基化的可重复性。组织标记物中有92.9%在表观基因组项目的全基因组亚硫酸氢盐测序 (WGBS) 数据中显示了一致的组织特异性甲基化,表明组织甲基化图谱捕获了真实的组织特异性甲基化模式;2)与组织特异性组蛋白修饰的关联。研究人员关注的是H3K27ac修饰,观察到93.7%的组织标记物有一致的组织特异性H3K27ac修饰;3)与组织特异性基因表达的关联。在GTEx项目的转录组测序数据中,当相应的启动子区域在组织类型中被低甲基化时,63.0%的组织标记物增加了基因转录水平,意味着组织特异性甲基化可能影响组织特异性基因表达;4)与组织特异性转录调控的关联。研究人员对转录进行了富集分析并在组织标记物上发现了转录因子结合基序,这些基序主要与发育、分化和组织特异性表达有关。因此,通过使用独立数据集的这四项验证,表明了该图谱中的组织甲基化标记物具有组织特异性和生物学意义。

图片

图2. 组织特异性甲基化图谱的构建和验证。

03 cfSort模型概述

研究人员使用521个组织样本的RRBS数据,以预定义的组织组成和不同覆盖深度生成cfDNA甲基化数据集作为训练、验证和测试数据。研究共生成295484个不同的训练样本和数千个验证和测试样本,满足DNN训练和评估的要求。此外,在数据生成中,研究人员充分利用不同组织类型、不同样本、不同组织组成的组合,探索数据中可能存在的噪声和偏差。因此,cfSort将从这些数据中学习稳健的组织特异性。

cfSort的基本结构是两个DNN的集合。每个DNN以特征集合作为输入,输出29种组织类型的预测组织组成。对于每个DNN,研究人员构造了三个节点数减少的密集隐藏层,并使用整流线性单元作为激活函数。隐藏节点可以自动学习权重,对输入特征进行优先排序,使DNN能够抵抗数据中的噪声。考虑到训练数据的大小和多样性,研究人员在每个密集层之前增加了一个批处理归一层,以稳定和加速训练过程。此外,还对DNN进行正则化,以增加模型的鲁棒性,避免过拟合。最终将预测的组织组成计算为两个DNN的平均预测。

图片

图3. cfSort分析流程图。

04 cfSort的分析性能

研究团队在一个独立的测试集上评估了cfSort的性能,将其性能与两种现有的组织反褶积方法进行了比较:非负最小二乘法(NNLS)和CelFiE。使用平均绝对误差、估计的组织分数与真相之间的相关性来评估方法的准确性。cfSort在所有指标上都优于NNLS和CelFiE,表明cfSort在估算组织成分方面的准确性高于其他两种方法。

反褶积方法需要有较高的检测限,以低比例检测组织衍生的cfDNA。为了评估cfSort的检测限,研究团队采用了一种广泛使用的系列稀释方法。对于系列稀释中的每个样本,将单个组织样本与检测组中已知组织分数和不同覆盖深度的样本混合。cfSort能够以0.1%的组织分数检测组织衍生的cfDNA,而NNLS以5%,CelFiE以0.5%检测组织衍生的cfDNA。以上结果表明cfSort比两种竞争方法具有更好的检测下限。

图片

图4. cfSort分析性能的评估与比较。

05 cfSort在临床中的应用

解析cfDNA中的组织成分可以揭示受影响组织内稳态的改变。研究人员将cfSort应用于健康和患病个体的cfDNA甲基组数据,以分析cfDNA中的组织组分是否可以指示疾病的发生率。

在所有的比较分析中,发现患者的受影响组织分数显著高于健康个体。此外,受影响的组织分数随着癌症分期的增加而增加。研究人员还使用受影响的组织分数作为唯一的预测因子来评估疾病,结果显示,cfSort可以检测来自病变组织的升高cfDNA,表明cfSort在辅助疾病诊断和监测治疗方面具有广泛的临床应用价值。随后,利用肝癌和健康人cfDNA WGBS数据进一步验证了cfSort对不同平台甲基化数据的适用性,揭示疾病引起的组织成分变化。

图片

图5. cfSort用于分析患者和健康个体的cfDNA。

结 语

综上所述,该研究报告了一个全面的高分辨率组织甲基化图谱和基于cfDNA的首个监督型组织反卷积方法—cfSort,其能够对cfDNA中的组织部分进行敏感而稳健的定量。研究人员还通过多个独立的数据集验证了组织标记图谱和cfSort的性能,表明这些标记与组织发育、组织分化和组织特异性转录相关。组织甲基化图谱和cfSort增强了cfDNA中组织去卷积的性能,从而促进了基于cfDNA的疾病检测和纵向治疗监测。

文章第一作者、加州大学洛杉矶分校Shuo Li表示:“cfSort是一种监督计算方法,可以确定cfDNA样本的组织来源。监督式机器学习依赖于输入和输出训练数据,而非监督式学习则依赖于原始数据。有了监督学习,模型可以吸收尽可能多的训练数据,训练数据越多,预测就越准确。”

据悉,cfSort已经申请了一项临时专利,该团队目前正在计划将该方法应用于不同疾病类型的更多研究。

参考资料:

Li S, et al., Comprehensive tissue deconvolution of cell-free DNA by deep learning for disease diagnosis and monitoring. Proc Natl Acad Sci U S A. 2023 Jul 11;120(28):e2305236120.

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

Nat Commun:基于肿瘤基因组与表观组特征的整合模型,有效提高cfDNA的癌症诊断及组织溯源性能

该技术使用了先进的人工智能(AI)算法来分析cfDNA和表观基因组的突变密度和模式,其在早期癌症检测和组织原定位中准确性优越。

Science Advances:研究证实cfDNA中含有肿瘤特异性TF结合信息,可利用血浆绘制肿瘤调控图谱

来自美国科罗拉多大学的研究团队绘制了血浆cfDNA中单个结合位点的TF结合图谱,定义了反映不同ER+疾病状态的cfDNA特征。

利用cfDNA检测21三体在双胎和单胎中结果相似 NIPT检测范围进一步扩大

胎儿染色体异常无创产前基因检测是利用国际领先的高通量测序平台,检测胎儿染色体异常的新一代产前检测技术。通过采集孕妇外周血,对血浆中的游离DNA片段(包含胎儿游离DNA)进行测序,结合生物信息分析,计算出胎儿患染色体非倍体的疾病风险。此技术能同时检测常见的染色体三体综合征:唐氏综合征(T21)、爱德华氏综合征(T18)、帕陶氏综合征(T13)。1997年,Lo等人(Lo Y. M. et al.

Nat Med:深度基因测序识别新的血管异常基因突变,超60%患者受益于相关靶向治疗

研究团队基于FFPE分离的DNA或来源于具有潜在生命威胁的血管异常患者cfDNA进行深度测序,能够可靠地识别血管异常的基因突变,而这些基因突变是常规基因测序方法无法捕获的。

Nat Commun:尿液中游离DNA是监测尿道感染的通用分析物

泌尿道感染是人类中最常见的感染之一。最近,有研究人员在细菌和病毒尿路感染中,测试了用尿液游离DNA(cfDNA)来全面监测宿主和病原微生物动态,并进行了相关研究。研究人员从141个尿液样本中分离出了cfDNA,这些尿液样本来自一个包含有82名肾移植患者的群体,并且进行了二代测序分析。研究发现,尿液cfDNA包含有微生物组中细菌和病毒、药物敏感性、细菌生长动态、肾移植损伤和对感染的宿主响应的丰富的信

EBioMedicine:胰腺癌检测研究新成果

随着“精准医学”的概念被逐渐运用至肿瘤领域中,以游离DNA( cell-free DNA, cfDNA)检测为代表的“液体活检”技术正成为恶性肿瘤、产前诊断和器官移植排异监测的新兴标志物。近日,复旦大学附属中山医院王小林教授研究团队在国际著名期刊Lancet杂志子刊EBioMedicine上发表了题为《通过富集短片段cfDNA提高胰腺癌的检出》(“Enrichment of short mutan