AlphaFold2 和相关系统使用深度学习从多序列比对 (MSA) 中编码的共同进化关系中预测蛋白质结构。尽管最近准确性有了显着提高,但仍然存在三个挑战:(i)预测无法为其生成 MSA 的孤儿和快速进化的蛋白质,(ii)快速探索设计的结构,以及(iii)了解控制自发多肽折叠的规则在解决方案中。在这里,我们报告了端到端可微循环几何网络 (RGN) 的开发,该网络能够在不使用 MSA 的情况下从单个蛋白质序列预测蛋白质结构。这个深度学习系统有两个新元素:一个蛋白质语言模型 (AminoBERT),它使用一个 Transformer 从数百万个未对齐的蛋白质中学习潜在的结构信息,以及一个紧凑地表示 C α 骨架几何形状的几何模块。 RGN2 在孤儿蛋白上的表现优于 AlphaFold2 和 RoseTTAFold(以及 trRosetta),并且与设计的序列具有竞争力,同时实现了 10 6 倍的计算时间减少。这些发现证明了蛋白质语言模型在结构预测方面相对于 MSA 的实践和理论优势。 MA 是 Foresite Labs 公司 FL2021-002 的 SAB 成员,并为 Interline Therapeutics 提供咨询。 PKS 是 Glencoe Software、Applied Biomath、RareCyte 和 NanoString 的 SAB 或董事会成员,并拥有其中几家公司的股权。 GMC 技术转让、咨询角色、559 和资金来源的完整列表可以在实验室网站上找到:http://arep.med.harvard.edu/gmc/tech.html。