DeepMind 又一成就:AlphaMissense能够预测出7100万错义突变,助力罕见病

2023-09-23 新智元 新智元 发表于上海

蛋白质预测模型AlphaFold在AI界掀起海啸级巨浪后,Alpha家族又迎来新贵。

蛋白质预测模型AlphaFold在AI界掀起海啸级巨浪后,Alpha家族又迎来新贵。

近日,Google DeepMind发布了全新AI模型——AlphaMissense,能够预测出7100万「错义突变」。

具体讲,AlphaMissense成功预测出的89%「错义突变」中,57%是致病性,32%是良性的。这其中仅有0.1%的变异是能被人类专家确认的。

Image

论文地址:https://www.science.org/doi/10.1126/science.adg7492

为了研究人员更好了解其可能产生的影响,谷歌还将这份千万级「错义突变」所有目录公开。

一直以来,发现根本病因是人类遗传学面临的最大挑战之一。而错义突变是可以影响「人类蛋白质」功能的基因突变,会导致囊性纤维化、镰状细胞贫血、癌症等疾病。

AlphaMissense的诞生展示了AI在医学领域,特别是在遗传学中的巨大潜力。它对于理解遗传变异与疾病关系,开发针对性的药物治疗等都具有重要意义。继AlphaFold之后,AlphaMissense或将成为足以改变世界的AI,有望攻克人类遗传学难题!

Image

什么是「错义突变」?

错义突变(missense variant),是生物医学和分子生物学领域中用于描述蛋白质编码基因中的一种基因突变:

DNA中单个字母的替换,会导致蛋白质中产生不同的氨基酸。

如果把DNA想象成一种语言,那么一个字母的替换就可以改变一个单词,并完全改变句子的意思。

在这种情况下,DNA的改变会导致氨基酸的变化,从而影响蛋白质的功能。

Image

普通人身上携带的错义突变超过9000多种。

一般而言,这些错义突变大多是良性的,对人体几乎没有影响。但其余少数则具有致病性,会严重破坏蛋白质的功能。

错义突变可用于罕见遗传病的诊断,因为少数甚至单个错义突变就可能直接致病。此外,它们对于研究复杂疾病(比如ii型糖尿病)也很重要,这类疾病可能是由多种不同类型的基因变异共同引起的。

因此,对错义突变进行分类是了解哪些蛋白质变化可能导致疾病的重要一步。

在已出现的人类400多万个错义突变中,只有2%被专家标注为致病性或良性这仅占所有可能的7100万个错义突变的0.1%左右。

Image

其余的突变因为缺乏相关影响的实验或临床数据,被归类为「意义不明的突变」。

但有了AlphaMissense,我们得到了迄今为止最清晰的突变影响图像:

AlphaMissense可以对89%的突变进行分类,其阈值在已知疾病突变数据库中的精确度为90%。

Image

基于AlphaFold打造,灵感来自ChatGPT大模型

那么,AlphaMissense究竟如何构建的?

AlphaFold、AlphaFold 2自发布以来,已经从氨基酸序列预测了科学界已知几乎所有蛋白质的结构,超过2亿+蛋白质。对此,谷歌研究人员基于AlphaFold(以下简称AF),对模型进行改编,由此可以预测改变蛋白质单个氨基酸的错义突变的致病性。

Image

简单讲,AlphaMissense整个运作原理是:将一个氨基酸序列作为输入,并预测序列中给定位置所有可能的单一氨基酸变化的致病性。

为了训出AlphaMissense模型,需要分两阶段进行:

第一阶段

训练一个与AF一样的神经网络。这种神经网络的灵感来自像ChatGPT这样的大模型。

通过预测多重序列比对(MSA)中随机位置掩码的氨基酸身份,能够进行单链结构预测,以及蛋白质语言建模。

研究人员对AF进行了一些小的架构修改,并增加了蛋白质语言建模的损失权重,同时仍然实现了与AF相当的结构预测性能。

在预训练之后,掩码语言建模头已经可以通过计算参考氨基酸和替代氨基酸概率之间的对数似然比,来用于变异效应预测,正如MSA Transformer和进化比例建模(EMS)中所做的那样。

事实证明,这些神经网络擅长预测蛋白质结构和设计新蛋白质,尤其对变异预测很有用,因为它们已经知道哪些序列是可信的,哪些不是。

第二阶段

这个阶段,研究人员对模型在人类蛋白质上进行微调,并为MSA第二行中设置突变序列,增加变异致病性分类目标。

然后,按照按PrimateAI的方法,去标注人类和灵长类群体这种的突变。

常见的突变被视为良性,从未见过的突变被视为致病性突变。

一旦模型开始在验证集上过度拟合(2526个ClinVar变异,每个基因良性和致病性变异数相等),研究人员就停止训练。

Image

不过,AlphaMissense不会预测突变后蛋白质结构的变化,或对蛋白质稳定性的其他影响。

而是,它利用AlphaFold对结构的「直觉」来识别蛋白质中可能发生的致病突变。

具体来说,利用相关蛋白质序列数据库和突变的结构上下文信息,生成一个0到1之间的连续分数,来近似评估突变的致病概率。

该连续分数允许用户根据自己的准确性要求,选择阈值将突变分类为致病性或良性。

Image

AlphaMissense如何对人类错义突变进行分类

在实验评估中,AlphaMissense在广泛的遗传和实验基准中实现了最先进的预测,而这一切都不需要对此类数据进行明确的训练。

在对来自ClinVar的变异进行分类时,AlphaMissense优于其他计算方法。ClinVar是一个关于人类变异与疾病关系的公共数据档案库。

AlphaMissense也是预测实验室结果最准确的方法,这表明它与衡量致病性的不同方法是一致的。

Image

AlphaMissense在预测错义变体效应方面优于其他计算方法

AI改变遗传学

一年前,谷歌DeepMind发布了使用AlphaFold预测的2亿个蛋白质结构。这一举措帮助了全球数百万科学家加速研究,并为新的发现铺平了道路。

现在,以AlphaFold为基础的AlphaMissense,通过对DNA的溯源,进一步加深了全世界对蛋白质的了解。

同样的,转化这项研究的关键步骤是与科学界合作。谷歌DeenpMind一直与英格兰基因组学组织合作,探索AlphaMissense的预测如何帮助研究罕见病的遗传学。

英格兰基因组研究所将AlphaMissense的研究结果与之前汇总的已知人类突变致病性数据进行了交叉对比。评估结果与AlphaMissense的预测一致,这为AlphaMissense提供真实世界的基准。

Image

谷歌DeepMind公开了错义突变的查询表,并且分享了19,000多种人类蛋白质中所有可能的2.16亿个单氨基酸序列置换的扩展预测。公开的数据中还包含了每个基因的平均预测值,类似于衡量一个基因的进化限制,表明该基因对生物体生存的重要性。

Image
AlphaMissense预测的示例叠加在AlphaFold预测的结构上
(红色=预测为致病,蓝色=预测为良性,灰色=不确定)
左图:β-血红蛋白亚基(HBB 蛋白)。这种蛋白质的变异可导致镰状细胞性贫血。

右图:囊性纤维化跨膜传导调节蛋白(CFTR 蛋白)。这种蛋白质的变异可导致囊性纤维化。

并且,谷歌DeepMind还与EMBL-EBI进行了合作。通过Ensembl突变效应预测器,研究人员将更方便地应用AlphaMissense的预测结果。

相信在不久的未来,AlphaMissense将帮助解决基因组学和整个生物科学的核心问题。

链接:

Nature:AlphaZero加强版AlphaTensor问世,发现史上最快矩阵乘法算法,在医学上能做什么?

DeepMind应该要获诺贝尔奖了!破解蛋白质折叠难题

DeepMind再发重磅论文:让计算机像婴儿一样思考

Nature:生命科学的变革:DeepMind人工智能可以预测大量蛋白质的结构

参考资料:
https://www.science.org/doi/10.1126/science.adg7492
https://www.deepmind.com/blog/alphamissense-catalogue-of-genetic-mutations-to-help-pinpoint-the-cause-of-diseases

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2159252, encodeId=1a002159252ac, content=<a href='/topic/show?id=060b10406572' target=_blank style='color:#2F92EE;'>#Deepmind#</a> 又一成就:<a href='/topic/show?id=14c210666e2f' target=_blank style='color:#2F92EE;'>#AlphaMissense#</a>能够预测出7100万<a href='/topic/show?id=b59010666830' target=_blank style='color:#2F92EE;'>#错义突变#</a>,助力<a href='/topic/show?id=5a8be955621' target=_blank style='color:#2F92EE;'>#罕见病#</a>。DeepMind公司太厉害了,<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a>真的能改变世界! , beContent=null, objectType=article, channel=null, level=null, likeNumber=66, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=104065, encryptionId=060b10406572, topicName=Deepmind), TopicDto(id=106667, encryptionId=14c210666e2f, topicName=AlphaMissense), TopicDto(id=106668, encryptionId=b59010666830, topicName=错义突变), TopicDto(id=79556, encryptionId=5a8be955621, topicName=罕见病), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/Random/55971dc507c93968175ce7cc1e177b372a83869f.jpg, createdBy=f63e4754896, createdName=侠胆医心, createdTime=Sat Sep 23 10:06:41 CST 2023, time=2023-09-23, status=1, ipAttribution=上海)]
    2023-09-23 侠胆医心 来自上海

    #Deepmind# 又一成就:#AlphaMissense#能够预测出7100万#错义突变#,助力#罕见病#。DeepMind公司太厉害了,#人工智能#真的能改变世界!

    0

相关资讯

Nat Genet:精确度提高6倍!新模型可更精准的预测异常剪接,助力罕见病诊断

研究团队构建了一个异常剪接预测模型AbSplice,可以预测在任何给定的人体组织中,罕见的变异是否与异常剪接有关。

罕见疾病患者信息登记系统

罕见病信息登记

“铃铛病”知多少?探秘血液科罕见疾病—Castleman 病!

Castleman病(CD)非常罕见的血液疾病,诊疗流程要知道!

NEJM:英国“破译发育障碍”项目揭示五千余例罕见病的遗传原因

在该文章中,研究团队描述了DDD研究多年来开发的分析策略。

张晓良教授:保持初心,潜心钻研,才能把一条充满荆棘的罕见病之路,越走越宽、越走越亮!「对话 · 风免」

张晓良:我一直鼓励准备学医的、医学生们,或者刚工作的年轻医生们,要踏踏实实地定下心,才能发扬工匠精神,钻研生命科学这个神秘、神圣又非常有意思的领域,这样才能守护人民健康,解除人民痛苦。