Nat Genet:精确度提高6倍!新模型可更精准的预测异常剪接,助力罕见病诊断

2023-07-10 测序中国 测序中国 发表于上海

研究团队构建了一个异常剪接预测模型AbSplice,可以预测在任何给定的人体组织中,罕见的变异是否与异常剪接有关。

识别非编码功能丧失(loss-of-function)的DNA变异是全基因组数据解析中的一个重要瓶颈,因为预测编码区域之外的功能变化非常困难。能够改变剪接的变体是一类重要的非编码功能丧失变体,它们可以导致RNA异构体(isoform)发生巨大改变,造成基因的功能丧失。

异常剪接是遗传疾病的一个主要原因,但异常剪接在转录组中的直接检测仅限于临床可采集到的组织,例如皮肤或体液。虽然基于DNA的机器学习模型可以筛选出影响剪接的罕见变异,但它们在预测组织特异性异常剪接方面的性能仍未经过评估。

近期,德国慕尼黑工业大学的研究团队在Nature Genetics发表了题为“Aberrant splicing prediction across human tissues”的研究文章。研究团队构建了一个异常剪接预测模型AbSplice,可以预测在任何给定的人体组织中,罕见的变异是否与异常剪接有关。AbSplice模型可以纳入DNA和RNA数据。在相同的召回率下,基于DNA的模型将精确度提高了3倍,基于RNA测序数据的模型将精确度提高6倍。新的预测模型可以更准确地识别罕见遗传疾病和癌症的遗传原因,极大地促进了非编码功能丧失变异识别和遗传诊断方法的设计和分析。

图片

文章发表在Nature Genetics

图片

图1. 研究设计和主要发现。

首先,研究人员生成了一个异常剪接基准数据集,涵盖来自GTEx数据集49种人体组织中的超过880万个罕见变异。随后,研究团队评估了两个最先进的基于序列的深度学习模型的性能:MMSplice和SpliceAI。在20%的召回率下,MMSplice的总体精确度为8%,SpliceAI的总体精确度为12%。

精确度和召回率是预测模型有效性的重要指标。精确度表明模型预测的遗传变异有多少实际上导致了不正确的剪接。召回率表明有多少基因变异导致的不正确剪接是由模型恢复的。

研究人员注意到,不准确的基因组注释导致了许多错误的预测。为了解决这些问题,研究人员使用GTEx RNA-seq数据创建了一个组织特异性剪接位点图谱,将其命名为SpliceMap。SpliceMap排除了每个组织的未转录剪接位点和内含子,包括了在同一组织样本中可重复观察到的未注释剪接位点和内含子。当把MMSplice应用于由SpliceMap定义的组织特异性剪接位点时,在20%的召回率下,MMSplice的精确度得到了提高(图2e),SpliceAI的精确度提高到22%。

图片

图2. 组织特异性剪接位点的比对提高了预测性能

为了利用MMSplice和SpliceAI预测的互补性,研究人员使用深度学习模型的得分以及组织特异性SpliceMap的注释特征训练了一个广义模型AbSplice-DNA,在相同的召回率下,该模型精确度提高了3倍。此外,在全部所研究的异常结果类别中,AbSplice-DNA的表现优于所有其他模型(图3)。

图片

图3. 定量剪接水平进一步提高了预测性能

在建立模型后,研究人员在独立队列中评估了其性能的重现。利用来自303名疑似罕见线粒体病患者的皮肤成纤维细胞RNA-seq样本分析发现,与其他模型相比,AbSplice-DNA提供的预测候选变异列表更短,有助于罕见病诊断。此外,研究人员还将AbSplice-DNA应用于203,306,868个罕见变异(MAF<0.1%),证明了AbSplice-DNA的稳健性和适用性,并表明其在罕见病诊断和罕见变异注释中的实用性。

图片

图4. AbSplice DNA在独立数据上的应用

接下来,研究团队还训练整合了AbSplice-DNA特征和基于RNA-seq CAT特征的模型,称之为AbSplice-RNA,优于所有其他模型。研究发现,使用成纤维细胞可获得与使用所有临床可及组织相同的性能,在20%的召回率下,AbSplice-RNA达到约60%的精确度,比AbSplice-DNA提高了两倍(图5c),这些提升在靶组织中均已被观察到(图5d)。

图片

图5. 整合临床可及组织的RNA-seq数据预测难以获取组织中的异常剪接

总之,该研究将异常剪接的直接检测与基于DNA的预测模型相结合,以预测目标组织中的异常剪接。与已有的模型相比,新开发的模型能够将预测错误剪接的精确度提高6倍。在召回率为20%的情况下,以前的算法达到了10%的精度,新开发模型达到了60%的精确度。此外,当纳入综合模型时,临床可及组织的RNA-seq补充了基于DNA的剪接预测。

文章作者、德国慕尼黑工业大学Holger Prokisch博士表示:“使用既定的DNA分析方法可以对大约一半的患者做出可靠的诊断。因此,我们需要改进预测的模型。该研究新开发的算法可以对此做出重要贡献。”

文章通讯作者、德国慕尼黑工业大学Julien Gagneur教授表示:“我们通过组织特异性的方式观察剪接过程,并使用血液或皮肤细胞等易于获取组织的直接剪接检测值,来预测心脏或大脑等难以获取组织中的剪接错误,从而在精度上取得了巨大进步。”

参考资料:

1.Wagner, N., Çelik, M.H., Hölzlwimmer, F.R. et al. Aberrant splicing prediction across human tissues. Nat Genet 55, 861–870 (2023). https://doi.org/10.1038/s41588-023-01373-3

2.Study: Novel algorithm 6 times more reliable at predicting defective RNA

https://medicalxpress.com/news/2023-06-algorithm-reliable-defective-rna.html

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2147354, encodeId=f605214e354fa, content=识别非编码功能丧失(loss-of-function)的DNA变异是全基因组数据解析中的一个重要瓶颈,因为预测编码区域之外的功能变化非常困难。能够改变剪接的变体是一类重要的非编码功能丧失变体,它们可以导致RNA异构体(isoform)发生巨大改变,造成基因的功能丧失。, beContent=null, objectType=article, channel=null, level=null, likeNumber=47, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20210925/20274508595745adb221d4af84f71a30/44cac845ab1e4a3a81ff3fe6373b97b0.jpg, createdBy=2a601767050, createdName=Mongolian, createdTime=Mon Jul 10 21:33:05 CST 2023, time=2023-07-10, status=1, ipAttribution=内蒙古)]
    2023-07-10 Mongolian 来自内蒙古

    识别非编码功能丧失(loss-of-function)的DNA变异是全基因组数据解析中的一个重要瓶颈,因为预测编码区域之外的功能变化非常困难。能够改变剪接的变体是一类重要的非编码功能丧失变体,它们可以导致RNA异构体(isoform)发生巨大改变,造成基因的功能丧失。

    0

相关资讯

血清胰岛素异常升高,这种罕见病因你知道吗?

本案例就工作中遇到的异常血清胰岛素结果进行复核、排查、原因分析,并通过查阅文献和患者病情记录,积极与临床沟通,及时有效的为临床提供检验结果,为临床进一步明确诊断提供了帮助。

“铃铛病”知多少?探秘血液科罕见疾病—Castleman 病!

Castleman病(CD)非常罕见的血液疾病,诊疗流程要知道!

NEJM:英国“破译发育障碍”项目揭示五千余例罕见病的遗传原因

在该文章中,研究团队描述了DDD研究多年来开发的分析策略。

Dany-Walker综合征:症状与体征、病因、流行病学、诊断和治疗

Dandy-Walker 综合征有时称为 Dandy-Walker 畸形或简称 Dandy-Walker,丹迪-沃克综合症。 这是一种先天性大脑畸形,会导致大脑的形成方式出现问题。 这是先天性的,意味

卡尔曼氏综合征:症状与体征、病因、流行病学、诊断和治疗

卡尔曼综合征,Kallmann Syndrome,也称特发性低促性腺激素性性腺功能减退症伴嗅觉缺失,孤立性 GnRH 缺乏症,是一种具有临床及遗传异质性的疾病。另外,与之十分接近的是常渗性特发性促性腺

张晓良教授:保持初心,潜心钻研,才能把一条充满荆棘的罕见病之路,越走越宽、越走越亮!「对话 · 风免」

张晓良:我一直鼓励准备学医的、医学生们,或者刚工作的年轻医生们,要踏踏实实地定下心,才能发扬工匠精神,钻研生命科学这个神秘、神圣又非常有意思的领域,这样才能守护人民健康,解除人民痛苦。