怎样推动“从0到1”的原始创新?这个比AlphaFold2更前瞻的研究当年坐足了“冷板凳”

2022-06-26 转化医学新前沿 深究科学 ID: deepscience

现在全国上下都在提倡推动“从0到1”的原始创新,提升基础研究的水平,但是到底什么是“从0到1”、什么是“从1到N”?

导读

2017年,当诺贝尔化学奖授予冷冻电镜领域时,国内高校出现了购买冷冻电镜的热潮。目前国内冷冻电镜数量差不多占全球的15%,然而4年之后,Deepmind公司闯入结构生物学领域,在这一领域掀起新的浪潮,未来只需输入氨基酸序列,即可精准预测蛋白质结构。

现在全国上下都在提倡推动“从0到1”的原始创新,提升基础研究的水平,但是到底什么是“从0到1”、什么是“从1到N”?

见仁见智,二者实际上并没有很清晰的分界线,毕竟绝大多数的研究是站在前人工作的肩膀上进行的,而“1”的准确位置很难界定。

借助周耀旗课题组怎样开始使用神经网络进行蛋白质从头设计(De novo protein design)的相关研究,今天我们跟大家一起探讨一下:什么是“从0到1”、怎样推动这样的原始创新?

2020年底,AlphaFold2在高精度蛋白质结构预测上取得了革命性进展。在这个后AlphaFold时代,大家自然而然地想要解决一个实用的反问题:根据某个功能的结构,设计出相应的、能够折叠成这样结构的蛋白质序列。

蛋白质从头设计已经有二十年的历史,长期以来,研究人员是通过设计和改进能量函数来搜索、优化可折叠成指定结构的序列,虽然有相当一部分成功的例子,但是总体来看成功率不高,使得这类蛋白质设计方法无法被广泛地使用 (Li et al, 2013,Liang et al, 2022)。

蛋白质从头设计示意图

AlphaFold2采用AI深度神经网络成功地预测了高精度的蛋白质结构,使基于AI的蛋白质从头设计这个反问题成为了一个新热点。现在,几乎每隔一小段时间就有一篇AI蛋白质设计的预印论文出现。

01

冷门领域的先行者:用神经网络来进行蛋白从头设计

在如此强大的AI深度学习方法出现之前,我们课题组率先想到用神经网络来进行蛋白质设计(Li et al, 2014)。这个“从0到1”的原创工作是我在印第安纳大学的博士生李职秀,与杨跃东(博士后,现为中山大学国家超算广州中心教授)、Eshel Faraggi(博士后)和詹剑(博士后)合作完成的。

02

从无人问津到炙手可热:AI蛋白质设计可谓坐足了“冷板凳”

2013年,我来到澳大利亚格里菲斯大学,我们组有幸与格里菲斯大学的机器学习名家Kuldip Paliwal教授组合作,开始利用深度学习(增加到三层隐藏层),并使用了距离和角度作为新特征,改进了SPIN这个方法,实现了34%原序列氨基酸的恢复率(O’Connell et al, 2018)。

但基于AI神经网络的蛋白质设计,作为一个研究方向,一直是冷冷清清的。从2015到2017年间,我们这篇论文(Li et al, 2014)在谷歌学术上没有任何人引用,到了2018、2019年也仅仅有2-3篇引用,2020年才开始以每年10篇以上的引用量逐渐递增。

从这里可以看出,走新路往往是孤独的,而且孤独有可能是持久的。在没有强大的AI深度学习出现之前,这个方向并不被看好,因此没有人有兴趣。在强大的AI深度学习和AlphaFold出现之后,这个方向才开始被追捧。现在,强大超深的神经网络在日新月异地提高原序列氨基酸的恢复率。根据一些预印本文章,目前已经到了40-50%,基本解决蛋白质设计这个问题似乎指日可待。

周耀旗2018年发表在Proteins上的论文

我们SPIN这个方法的意义和影响,在当时并不能马上看出其前景,因为没有人知道AI深度学习在不久的将来会变得如此强大,所以相关成果也只能发表在低影响因子的专业杂志上(如Proteins《蛋白质》,目前影响因子为3.756)。

图片

03

怎样推动“从0到1”的原始创新?

现在全国上下都在推动“从0到1”原始创新的基础研究,但是并没有神奇妙法可以判断出哪个是丑小鸭,哪个是假天鹅。

如果可以判断,那一定是因为已经可以初步看出天鹅的样子了,也就是说不是“从0到1”(从无到有),而很可能是“从1到N”(从有一点点像到更像天鹅)的基础研究。因为可行性(有苗头)是一个申请经费的标准,所以大多数项目的基金实质上都在资助从1到N的研究。

那应该怎样来促进从0到1的基础研究呢?我认为可以从三个方面着手:

PS:本文经周耀旗研究员许可,授权转发,略有改动。文章始发于“深圳湾实验室”。

参考文献

1.Dai, L. Y. Yang, H. Kim and Y. Zhou (2010), Improving computational protein design by using structure-derived sequence profile. Proteins 78, 2338-2348.

2.Li, Z,Y. Yang, J. Zhan, L. Dai and Y. Zhou (2013), Energy Functions in De Novo Protein Design: Current Challenges and Future Prospects, Ann. Rev. Biophysics 42, 315-335.

3.Li, Z., Y. Yang, E. Faraggi, J. Zhan, and Y. Zhou (2014), Direct prediction of the profile of sequences compatible to a protein structure by neural networks with fragment-based local and energy-based nonlocal profiles., Proteins, 82, 2565-2573 (2014).

4.Liang, S., Z. Li, J. Zhan, and Y. Zhou, “De novo protein design by an energy function based on series expansion in distance and orientation dependence.”, Bioinformatics ,38(1), 86–93 (2022).

5.O’Connell, J. Z. Li, J. Hanson, R. Heffernan, J. Lyons, K. Paliwal, A. Dehzangi, Y. Yang, and Y. Zhou, (2018) SPIN2: Predicting sequence profiles from protein structures using deep neural networks Proteins, 86: 629-633.

6.Zhou, H. and Y. Zhou, (2005), Fold recognition by combining sequence profiles derived from evolution and from depth-dependent structural alignment of fragments, Proteins. 58, 321-328.

作者:周耀旗(深圳湾实验室)

版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. 2022-06-26 ms9000000502934411

    学习了

    0

  2. 2022-06-26 屋顶瞄爱赏月

    签到学习

    0