同期两篇Science:人工智能革新蛋白质设计:准确而快速地创造蛋白质

2022-09-24 测序中国 测序中国

两篇研究开发并证明了ProteinMPNN的广泛实用性和高准确性,弥补了以前使用Rosetta或AlphaFold进行的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白的不足。

在过去的两年里,机器学习彻底改变了蛋白质预测和设计的研究进展。7月28日,Alphabet旗下DeepMind公司表示,AlphaFold已经预测了全球几乎所有的蛋白质结构,其蛋白质结构数据库中的数据从200万个扩增到超2亿个。AlphaFold是继AlphaGo之后,DeepMind重磅打造的一款智能人工系统,主要被用于预测蛋白质结构。

但先进如AlphaFold也只能预测天然蛋白质结构,如何从头设计全新的功能性蛋白质分子仍是生物学研究的一个挑战。深度学习生成方法提供了广泛探索天然蛋白质之外的蛋白质结构的机会。

9月15日,科学突破奖获得者、华盛顿大学医学院David Baker教授团队在国际顶级期刊Science上同期发表两篇文章“Robust deep learning–based protein sequence design using ProteinMPNN”和“Hallucinating symmetric protein assemblies”。Baker团队开发了一种基于深度学习的蛋白质序列设计方法ProteinMPNN。结果显示,ProteinMPNN的序列回收率为52.4%,具有广泛的实用性和高准确性。两项研究成果表明,机器学习可以用于创建蛋白质分子,且更加准确快速。

Baker教授表示:“蛋白质是生物学研究的基础。但我们知道,目前在植物、动物和微生物中发现的蛋白质远不到所有蛋白质的1%。有了这些新的软件工具,研究人员能够找到解决医学、能源和技术中长期挑战的更多方法。”

包括AlphaFold和RoseTTAFold在内的强大机器学习算法已经被训练成仅根据氨基酸序列来预测天然蛋白质的结构。为了超越自然界中发现的蛋白质,研究团队将蛋白质设计的挑战分解为三个部分,并为每个部分提供新的软件解决方案。

首先,必须生成新的蛋白质形状。该研究团队于7月21日发表在Science上的研究表明,人工智能可以通过两种方式生成新的蛋白质形状。第一种被称为“hallucination”(幻想),类似于DALL-E或其他基于简单提示输出的人工智能生成工具。第二种称为“inpainting”(修复),类似于现代搜索栏中的自动补全功能。

第二,为了加速蛋白质生成过程,研究团队设计了一种生成氨基酸序列的新算法,并将这一超快速软件工具命名为ProteinMPNN。ProteinMPNN运行时间大约为1秒钟,比已有的最好软件快200多倍,其性能表现优于已有的工具,并且运行该软件不需要专家定制。

图:使用ProteinMPNN设计蛋白质的细节,来源:Ian Haydon, UW Medicine Institute for Protein

第三,研究团队使用AlphaFold独立评估了其设计的氨基酸序列能否折叠成预期的形状。

结果显示,在天然蛋白质骨架上,ProteinMPNN的序列回收率为52.4%,而Rosetta为32.9%。ProteinMPNN设计不同位置的氨基酸序列可以在单链或多链之间偶联,使其应用于当前蛋白质设计的广泛挑战成为可能。对于ProteinMPNN设计新生成的蛋白质,研究团队利用电子显微镜观察到30种全新的蛋白质结构,包括纳米环结构,其直径仅为罂粟籽的十亿分之一。

图:ProteinMPNN产生了对称的纳米环形结构蛋白质组合。来源:Ian Haydon, UW Medicine Institute for Protein

在Baker实验室同期发表的另一篇论文“Hallucinating symmetric protein assemblies”中,研究团队证实,新的机器学习工具组合能够可靠地产生在实验室中发挥作用的新蛋白质。使用ProteinMPNN制造的蛋白质更有可能按照预期折叠,因此可以使用这一方法制造非常复杂的蛋白质装配体。

图:超快速软件工具ProteinMPNN设计的蛋白质更有可能按预期折叠。来源:Ian Haydon, UW Medicine Institute for Protein

“如果你有大量数据,神经网络很容易训练,但对于蛋白质没有那么多数据可以使用。因此我们不得不识别这些分子中哪些特征是最重要的,”Baker实验室的Justas Dauparas博士解释。“预测蛋白质结构的软件是解决方案的一部分,但这种软件自己不能创造任何新的蛋白质。ProteinMPNN之于蛋白质设计,犹如AlphaFold之于蛋白质结构预测。”

上述两篇研究开发并证明了ProteinMPNN的广泛实用性和高准确性,弥补了以前使用Rosetta或AlphaFold进行的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白的不足。“这是利用机器学习进行蛋白质设计的开始,” Baker教授表示。“在未来的几个月里,我们将致力于改进这些工具,以创造出更具活力和功能的蛋白质。”

参考资料:

1.Robust deep learning–based protein sequence design using ProteinMPNN. J. DAUPARAS I. ANISHCHENKO N. BENNETT, et al. SCIENCE,  2022. DOI: 10.1126/science.add2187

https://www.science.org/doi/10.1126/science.add2187

2.Hallucinating symmetric protein assemblies. B. I. M. WICKY L. F. MILLES A. COURBET, et al. SCIENCE, 2022. DOI: 10.1126/science.add1964

https://www.science.org/doi/10.1126/science.add1964

3.AI Revolutionizes Protein Design: Creates Proteins Accurately and Quickly

https://www.genengnews.com/artificial-intelligence/ai-revolutionizes-protein-design-creates-proteins-accurately-and-quickly/

·END ·

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

中国人群研究:吃肉也可降血压!Hypertension教你这样摄入蛋白质,新发高血压风险降低26%!

Hypertension:不同食物来源的蛋白质种类与新发高血压的负相关关系。

谷歌AlphaFold破译“上帝密码”,解答困扰人类50年难题

中国科学院院士施一公认为:AlphaFold2是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。

Sci Rep:要降低代谢综合征风险,摄入哪种&多少蛋白质都有讲究!

不同膳食蛋白来源与代谢综合征的长期关联

Clinical Nutrition: 危重患者蛋白质摄入量和28天内死亡风险的相关性

蛋白质是生命活动的物质基础,具有多种生理功能,蛋白质摄入过多过少均不利于健康。因此为了保证身体健康,蛋白质应有适宜的摄入量,保证机体蛋白质“够用而不过多”。

Clinical Nutrition: 蛋白质摄入对肾移植后骨骼肌质量变化的影响

肌少症(sarcopenia)又称肌肉减少症,是一种与年龄相关的老年综合症,其特征在于肌肉质量、力量和功能的逐渐丧失,并且是老年人衰弱、残疾和死亡的强有力因子。

AlphaFold是又一个“卡”中国脖子的核心技术?“我们必须从底层技术做起”

2022年7月28日,英国DeepMind公司表示,AlphaFold已经预测了全球几乎所有的蛋白质结构,短短一年时间,他们的蛋白质结构数据库中的数据从200万个扩增到超2亿个。