DeepMind AI处理蛋白质折叠,使以前的软件不起眼

2020-12-01 06:22:32

今天,DeepMind宣布,它似乎已经解决了生物学上的一个突出问题:蛋白质中的氨基酸串如何折叠成能够实现其复杂功能的三维形状。尽管在这些计算中使用了超级计算机级的硬件,但数十年来,这一计算挑战一直抵制了许多非常聪明的生物学家的努力。相反,DeepMind使用128个专用处理器培训了其系统几个星期。现在,它会在几天之内返回潜在的结构。

该系统的局限性尚不明确-DeepMind表示,它目前正计划在经过同行评审的论文上,并且仅发布了博客文章和一些新闻稿。但是,在短短四年内,最佳系统的性能提高了两倍以上之后,该系统的性能显然比其之前的任何产品都要好。即使不是在每种情况下都有用,这种进展可能意味着现在可以从编码蛋白质的基因的DNA序列中预测许多蛋白质的结构,这将标志着生物学的重大变化。

为了制造蛋白质,我们的细胞(以及所有其他生物的细胞)通过化学方法将氨基酸连接起来,形成一条链。之所以起作用,是因为每个氨基酸都具有可以化学连接形成聚合物的主链。但是生命所使用的20种氨基酸中的每一种都有与该主链相连的一组不同的原子。这些可以是带电荷的或中性的,酸性的或碱性的等,并且这些性质决定了每种氨基酸如何与其邻域和环境相互作用。

这些氨基酸的相互作用决定了链产生后所采用的三维结构。疏水氨基酸最终出现在结构内部,以避免水环境。带正电荷和带负电荷的氨基酸相互吸引。氢键驱动规则螺旋或平行片的形成。这些共同推动了原本可能是无序的链折叠成有序结构。这种有序的结构反过来定义了蛋白质的行为,使其可以像催化剂一样起作用,与DNA结合或驱动肌肉收缩。

确定蛋白质链中氨基酸的顺序相对容易。它们由编码蛋白质的基因中DNA碱基的顺序定义。而且,由于我们非常擅长对整个基因组进行测序,因此我们拥有了丰富的基因序列,因此现在有大量的蛋白质序列可供我们使用。但是,对于其中许多蛋白质,我们不知道折叠后的蛋白质是什么样子,这使得很难确定它们的功能。

考虑到蛋白质的骨架非常灵活,蛋白质的几乎任何两个氨基酸都可能相互影响。因此,一旦氨基酸数量太大,弄清楚哪些蛋白质确实在折叠的蛋白质中发生相互作用,以及如何最大程度地减少最终构型的自由能,就成为棘手的计算难题。本质上,当任何氨基酸都可以占据3D空间中的任何潜在坐标时,弄清楚该放在哪里很难。

尽管困难重重,但仍取得了一些进展,包括通过分布式计算和折叠游戏化。但是,正在进行的名为“蛋白质结构预测的关键评估”(CASP)的半年一次的活动在整个过程中都出现了非常不规则的进展。而且,在没有成功的算法的情况下,人们要完成纯化蛋白质的艰巨任务,然后使用X射线衍射或冷冻电子显微镜确定纯化形式的结构,这通常需要花费数年的时间。

DeepMind是一家AI公司,于2014年被Google收购。此后,它引起了轰动,开发了成功应用于Go,国际象棋甚至是星际飞船上的人类的系统。在该系统取得的一些显著成功中,只需为其提供游戏规则并对其进行宽松设置即可进行培训。

这是一个功能非常强大的系统,但是尚不清楚它是否可以用于蛋白质折叠。首先,没有明显的“获胜”外部标准-如果您获得的自由能非常低的结构,就不能保证那里有些东西要低一些。规则的方式也很多。是的,带相反电荷的氨基酸彼此相邻会降低自由能。但是,如果要付出数十个氢键和疏水性氨基酸伸入水中的代价,那将不会发生。

那么,如何使AI在这些条件下工作呢?对于他们称为AlphaFold的新算法,DeepMind团队将蛋白质视为一个空间网络图,每个氨基酸为一个节点,并且它们之间的连接由它们在折叠蛋白质中的接近程度来调节。然后,通过向AI提供预先确定的从公共数据库中获得的170,000种蛋白质的结构,从而对AI本身进行训练,以弄清这些连接的配置和强度。

当给定新蛋白质时,AlphaFold搜索具有相关序列的任何蛋白质,并比对序列的相关部分。它还搜索具有已知结构且也具有相似区域的蛋白质。通常,这些方法擅长优化结构的局部特征,但不能很好地预测蛋白质的整体结构-将一堆高度优化的片段混在一起不一定能产生最佳的整体。这是该算法的基于注意力的深度学习部分,用于确保整体结构一致。

在今年的CASP中,AlphaFold和其他进入者的算法被放到一系列尚未解决(随着挑战的进行而解决)或已经解决但尚未发布的蛋白质上。因此,算法的创建者无法为系统提供真实世界的信息,并且可以将其输出与最佳真实世界的数据进行比较,这是挑战的一部分。

AlphaFold的表现相当出色,远胜于其他任何产品。对于它预测结构的约三分之二的蛋白质,如果您试图在实验室中重复进行结构研究,则将在实验误差之内。总体而言,对精度的评估是从零到100,平均得分为92,这也是您在两种不同条件下两次尝试获得结构时所看到的范围。

通过任何合理的标准,解决了计算蛋白质结构的计算难题。

不幸的是,那里有很多不合理的蛋白质。有些立即被卡在膜中。其他人很快就接受了化学修饰。还有一些需要与专门的酶进行广泛的相互作用,这些酶会消耗能量,以迫使其他蛋白质重新折叠。 AlphaFold不太可能处理所有这些极端情况,而且如果没有学术论文描述该系统,那么要花一点时间以及一些实际使用情况才能弄清楚该系统的局限性。这并不是要取得令人难以置信的成就,只是要警告不要过分期望。

现在的关键问题是,该系统将在多快的时间内提供给生物学研究界,以便可以定义其局限性,我们可以开始将其用于可能运作良好并具有重大价值的案例,例如来自病原体的蛋白质的结构或癌细胞中发现的突变形式。