更多的蛋白质折叠进展——这意味着什么?

2021-07-27 01:58:01

我上次写了一篇关于 Deepmind 用他们的 AlphaFold 软件预测蛋白质折叠和结构的努力。 AlphaFold 在 2020 年蛋白质折叠挑战赛中的表现确实非常出色,这引起了很多关注。嗯,他们最近发布了大量关于他们如何做到这一点的细节,发布了他们的源代码,并且他们宣布他们将发布他们的 350,000 个蛋白质的计算结构,将在未来几个月内跟进高达 1 亿多。这是数据库。华盛顿大学的一个小组刚刚发布了他们自己的类似方法 (RosettaFold),并且还免费提供了此代码。所以很明显,计算蛋白质结构预测的世界与几年前截然不同。但我已经记录在案,因为 (1) 为这类事情欢呼,而 (2) 说它对药物发现的影响并不像许多故事和新闻稿所描述的那样大。最近的事态发展会改变我的想法吗?这是什么意思呢?我一直在与同事交谈并看到该领域人员的评论,所以这是我的尝试。嗯,一方面,这意味着学术界的很多人将不得不重写他们的研究资助。如果您自己一直在研究蛋白质折叠计算,那么您很可能已经被这些最近的发展所震撼,需要重新思考。这并不意味着没有什么可做的(远非如此 - 请继续阅读),但是任何试图与 DeepMind 做类似事情的人充其量都已经处于 RosettaFold 人的位置,如果您正在尝试做类似的事情为 RosettaFold 工作,好吧。 . .你最好仔细瞄准目标。我们都必须习惯的另一件事是,多年来(几十年)人们一直认为,当预测结构和实验结构不匹配时,计算错误是最可能的错误来源,这是非常正确的所以。我们现在已经到了球在实验者法庭上的地步,这是新事物。现在,如果两者之间存在很大的不匹配,坦率地说,这更有可能是实验错误,因为折叠预测变得如此可靠。至少可以说,这令人迷失方向。还有与实验数据的协同作用。对于我们中的许多人来说,很多不是膀胱造影术的人,X 射线数据看起来就像是在金色的药片上随着喇叭的声音传递。但是蛋白质 X 射线结构也依赖于模型构建。您尝试查看哪些结构最适合实验电子密度数据。这些数据通常可以用不同的方式来解释,尤其是在涉及到细微的构象细节时。我说的是“微妙的”,但有时这些小的结构性事物会对蛋白质功能产生巨大的影响——看看脯氨酰异构酶,它的工作是使脯氨酸残基在整个链中以顺式或反式方式存在,而在下游活动依赖于这种状态转换的蛋白质数量。访问这种经过充分验证的结构模型改变了 X 射线数据的处理方式,并且变得更好。根据用于确定它们的方法,蛋白质结构也存在差异,这些计算也有助于解决这些问题。但这导致我在就 AI 和 ML 方法对化学和药物发现的影响进行各种演讲时一直指出的。这些东西重新定义了繁重的工作:它们使越来越大的以前是人类劳动的区域变成了机器劳动,机器劳动变得更快、更不知疲倦,并且始终变得更加准确。这对我们人类有什么好处?它把我们推向更高层次的问题,这些问题还没有受到计算或自动化解决方案的影响。在蛋白质折叠和结构的情况下,这意味着我们现在将把更多的时间花在更难的事情上:蛋白质复合物、蛋白质表面的分类和一般功能、各种翻译后修饰的影响,真实细胞生物学时间中蛋白质构象变化的动力学,小分子配体如何进出结合位点的微妙之处,以及变构位点和辅因子如何从远处改变这些事物的相关问题。重要的是要意识到新的蛋白质计算工具并没有将所有这些都变成已解决的问题。差远了。他们清除了许多障碍,以便我们可以更轻松、更高效地解决这些问题,当然,但一旦我们到达特定金矿的实际岩面,他们就无法解决这些问题。举一个直接的例子,我看到一位结构生物学家的评论指出,当你向 AlphaFold 询问各种关键激酶的结构时,它会给你一个我们已经知道的非活性酶的非常准确的一个蛋白质的形式。激酶有几个区域可以跳出并快速进入不同且易于访问的构象状态,并且(无论如何)这些结构预测套件不一定会捕获所有这些,并且它们肯定不会告诉您哪些与活性相关酶或与蛋白质在体内的不同功能更相关。

考虑一下我刚刚在上面提到的那些脯氨酸:AlphaFold 可能会在一个蛋白质结构中为您提供顺式脯氨酸,也可能在特定蛋白质的某个特定残基上为您提供反式脯氨酸,但它无法告诉您这两者都是在活细胞中发现,它们被另一种酶相互转化,这两种形式将具有完全不同的功能。与此同时,同一蛋白质中的其他脯氨酸根本不会相互转换,你也不会知道。这些细节由我们人类来解决。同样,许多酶需要与它们结合的辅因子分子来完成它们的一些工作,而 AlphaFold 结构无法考虑这些——锌或钙离子等物质的存在也对蛋白质结构和功能产生深远影响。在机器的帮助下,人类将解决这些更棘手的问题(字面上,就铁相关蛋白质而言)。这就是为什么我用我的方式谈论蛋白质结构预测及其对药物发现的影响。药物发现就是关于这些生物效应的——它还能关心什么?这些是比裸蛋白质结构更高级的东西,尽管如此有价值。请记住,我们在临床上的失败率总体上约为 90%,这些失败都不是由于缺乏良好的蛋白质结构。它们是由更困难的问题引起的:这些蛋白质在活细胞中的实际作用,这些功能在健康和疾病方面有何不同,它们在不同类型的人类患者之间以及一般人类与用于开发的动物模型之间有何不同化合物,候选药物可能已经击中了哪些其他蛋白质靶向以及那些开始的下游效应(通常是不受欢迎的),等等。因此,这些新工具极大地推进了结构生物学。但它并没有过时、被取代或变得无关紧要。它比以往任何时候都更相关,现在我们可以用它来解决更大的问题。非常慎重和周到的拍摄,没有炒作。 AF2 无疑让我们向前迈进了一步,尤其是对于以前没有结构可用的蛋白质,但从许多例子中可以清楚地看出,它还没有准备好处理无序区域、多蛋白质复合物等问题。关于辅因子,我有一位同事声称他们在 AF2 上运行了一个刚刚解决的结构的序列,它吐出一个由 4 个 Cys 协调的锌,与尚未发布的结构中看到的完全一样。那么,也许它确实考虑到了这一点——至少对于 PDB 中具有辅因子结合结构的明确定义的域?虽然我知道你在这个话题上的帖子的语气是为了抵消流行的炒作,德里克,但我觉得这有点奇怪。与其护理传统化学家/生物学家的伤口并向他们保证他们的职业生涯是安全的,也许我们应该花更多的时间思考一家科技公司如何显然能够跳入一个正交领域并完全超越整个学术界?

这些人的化学/生物学学生应该接受哪些培训?正在提供哪些激励措施来阻止传统利益相关者自己取得这些进步(而不是作为更广泛的科技公司努力的附带项目)?砧板上还有哪些其他传统领域?我实际上得出了相反的结论。谷歌可能在这个项目上花费了大量资金和其他资源(就像他们在许多内部项目上所做的那样),一个资源可能少得多的学术小组设法创造了几乎同样好的东西。很明显,当 Baker 小组宣布他们的结果时,Google 小组急于发布更多的结果和代码。抱歉,您忘了提及贝克有一群(军队)学生,他们全天候从事廉价劳动力的工作。更不用说这笔钱来自赠款……工作中的税收。嗯,这都是真的,但与 google/deepmind 相比,即使是资金充足的学术实验室,其预算和资源基础也很少。你有点暗示谷歌没有直接进入生命科学人才的学术库,这根本不是真的。这些人中的大多数都在来回移动。研究生已经发现了 AI 培训的价值,并正在利用它来实现自己的生命科学目标。我怀疑有太多生物技术公司或学术机构会对你持有谷歌人工智能居留权。作为一名“传统化学家”,我不清楚为什么这种特定的发展会对我的职业生涯构成威胁。谷歌比我更擅长从大量数据中进行模式匹配,就像安捷伦在制造 LC-MS 仪器方面比我更好。

当我们达到计算方法能够*准确*建议需要与蛋白质上的特定位点紧密结合的化合物时,我就会担心我的工作。但事实并非如此,我不清楚我们是否会很快接近这一目标(对我来说是幸运的,但对每个医疗需求未得到满足的人来说是不幸的)。我认为这是对使用 AI/ML 计算蛋白质折叠的最新发展的现实评估。一个结果是,蛋白质折叠的成功将增加人们的信心,即 AI/ML 还可以为药物设计者面临的更棘手的问题提供解决方案(例如,在无法实时测量的情况下预测体内未结合的细胞内药物浓度)这可能会削弱药物研发科学家的批判性思维技能。随着对蛋白质结构的预测越来越好,实验蛋白质结构科学家将需要寻找增加实验蛋白质结构价值的方法。绘制相互作用潜力(例如用片段)将是一种明显的前进方式,也可能证明使用配体将蛋白质驱动到与蛋白质功能相关的构象空间的不同区域中是可能的。 “在无法实时测量的情况下预测体内未结合的细胞内药物浓度” 如果今天无法测量某些东西,那么今天药物化学家可能不会使用它。因此,要么药物发现不需要它,要么药物化学家只是在猜测。无论哪种方式,它都可能是“药物设计者面临的更棘手的问题”,但这与当今的药物设计实践无关。 Endpoints News 的头条新闻:“谷歌的 DeepMind 向科学开放了其蛋白质数据库——可能会全面开放药物研发”因此,药物发现的顽固分子最终将以戏剧性的方式产生。就像之前所做的一样(例如,基因组计划)。说真的——写得很好,关于承诺和仍然存在的挑战,德里克。在预测含有非天然氨基酸的蛋白质结构方面做了多少工作(这应该很快在生物技术中很常见)? (有人致力于将 α-氨基异丁酸添加到遗传密码中吗?通过主要的工业应用应该可以显着提高蛋白质的稳定性。)

我完全同意 Deepmind 和 AI 并没有真正完成任何事情的观点,它只是将我们的注意力转移到了更远的道路上。但是,我认为您正在跳过 Rosetta 提供的一个关键机会:反向运行机器。 (完全公开地说,我花了数年时间与他的实验室一起研究设计从头蛋白质作为小分子的高亲和力结合物的难以置信的难题。在我看来,他和他的团队吸引的学生代表了我们“最优秀和最聪明的人”更值得注意的是,他们是如此慷慨的合作者。)当你试图跨越计算设计的高亲和力结合复合物和实际可以表达的蛋白质之间的差距时,橡胶就上路了。生成成千上万的高质量设计是微不足道的。问题是,当您尝试制作它们时,它们中的许多只会变成炒鸡蛋。将它们全部制作出来并进行筛选变得令人望而却步,尤其是当蛋白质变大时。该领域一些更有前景的方法围绕通过查询已知结构来改进设计评分算法。据我所知,这些进步将极大地扩展我们的可用示例库。我不知道它是否会将统计数据从“不太可能”变为“可能”,但它肯定不会受到伤害。我记得埃里克·德雷克斯勒 (Eric Drexler) 几十年前曾争论过,为所需的稳定形状设计蛋白质应该比解决蛋白质折叠问题容易得多。 (我的名字上有一个指向 Drexler,PNAS '81 的链接。)您的经历对此有什么正面或负面的看法吗?听起来他对设计的看法可能是正确的(很容易制作数千个高质量的),但细胞发现这些设计很难生产(炒鸡蛋)?埃里克·德雷克斯勒 (Eric Drexler) 预测了足够多的垃圾,其中一些肯定会接近正确。鉴于工作的主体,我会忽略它。我的经历令人谦卑。您需要一个稳定的 apo 设计,否则蛋白质无法折叠和塌陷或无法完全表达。这已经够难了,但如果你没有办法让蛋白质与目标对接并产生稳定的复合物,那就没有用了。这通常是设计开始的地方,然后您根据预测的稳定性分数进行向下选择,无论这些分数可能是什么。识别这一点的算法正处于最前沿,我看到一堆亮起并熄灭。在许多情况下,设计/表达/评分训练集可以提供信息,但这非常费力。至于德雷克斯勒的假设?正如孩子们所说,“神话破灭了。”

德里克,这是对计算机辅助蛋白质结构预测及其前景和现实观点的翔实评论。然而,关键问题是:哪家制药公司愿意使用结构预测技术作为药物发现活动的关键基础?我想目前没有。我个人也不会这样做。有太多的变量,例如翻译后修饰、构象变化、膜脂成分的影响等,使这些预测成为很好的和令人印象深刻的计算练习。但实用价值非常有限。给出的 X 射线晶体学示例,其中计算机生成的结构可以帮助结构确定过程,这无疑是一个很好的例子。这一切都让我想起了二十年前的计算理性药物发现炒作。在计算机上生成药物很容易,但很难获得 FDA 的批准......一家小公司已经从从头蛋白质设计中受益,早期蛋白质折叠/药物化学家天才比尔·德格拉多 (Bill DeGrado)(宾夕法尼亚大学,现在的加州大学旧金山分校)的赞美,以后期 HDP 模拟物的形式,brilacidin DeGrado 和同行在 2000 年代初期,在实际应用中从头蛋白质设计方面领先于时代,请参阅以下链接 https://www.newyorker.com/tech/annals-of-technology/the-promise-of-designer- protein-in-the-fight-against-covid-19 https://www.youtube.com/watch?v=YeIVx_zGezc http://www.ipharminc.com/s/new_weapons_for_the_germ_wars.pdf AlphaFold 最初的成功引导我在 2019 年年中与 DeepMind 的小组发起对话——经过 2 次会议,我们了解到潜在的合作是行不通的。我们还与蛋白质设计研究所合作。他们的论文在 Nature 上发表后,我再次联系了 AlhpaFold 团队(这次是通过谷歌中介),虽然他们已经在 GitHub 上发布了代码,但关键只是学术界。所以还没有为药物发现公司做好准备。有人告诉我可能会发生一些事情。我认为 DeepMind 感受到了 RosettaFold 出版物的热度。该出版物的一个关键思想是它正确预测了 IL-12R/IL-12 蛋白质-蛋白质相互作用,符合 Cry-EM 结构。该模型还提供了一些关键的额外见解,可用于药物设计。蛋白质-蛋白质相互作用将成为这些算法帮助将球向前移动的好方法。而且我知道 Nvidia 将使用其 SuperPod 架构原生的 AlphaFold 版本。再加上额外的基于 AI 的从头计算加速,作为分子动力学和蛋白质折叠的人,我个人乐观地认为该领域可能接近拐点。 AlphaFold2 在很多层面上都令人印象深刻。在我们新获得的冷冻电镜图谱中,他们对大型球状蛋白质的预测之一就像手套一样。我们的 4.5A 地图现在是一个原子模型,huzzah !!!但是……当蛋白质有多个域时,AlphaFold2 的准确度要低得多——我有 2 张 EM 图,它们清楚地表明 AlphaFold 在单域级别是正确的,而在预测整个多域蛋白质的组装方式时完全错误。这是预期的,多域组装类似于蛋白质复合物预测,AlphaFold2 不是为此而构建的。 (而且,谁会说域是组装的,只组装在一种配置中,等等。)然而,请记住,AlphaFold 可能会以意想不到的方式失败......所以总是警告空运者。让我担心的是,由于 AlphaFold 的声誉,人们会开始将这些模型视为预言机……在此浏览器中保存我的姓名、电子邮件和网站,以便我下次发表评论。