简读分享 | 赵晏浠 编辑 | 李仲深
论文题目
Single-sequence protein structure prediction using a language model and deep learning
论文摘要
AlphaFold2 和相关计算系统使用以多序列比对 (MSA) 编码的深度学习和共同进化关系来预测蛋白质结构。尽管这些系统实现了很高的预测准确性,但挑战仍然存在于 (1) 无法生成 MSA 的孤儿和快速进化蛋白质的预测; (2) 设计结构的快速探索; (3) 了解溶液中多肽自发折叠的规律。在这里,我们报告了端到端可微循环几何网络 (RGN) 的开发,该网络使用蛋白质语言模型 (AminoBERT) 从未对齐的蛋白质中学习潜在的结构信息。链接的几何模块以平移和旋转不变的方式紧凑地表示 Cα 主干几何。平均而言,RGN2 在孤儿蛋白和设计蛋白类别上的表现优于 AlphaFold2 和 RoseTTAFold,同时计算时间减少了 106 倍。这些发现证明了蛋白质语言模型在结构预测中相对于 MSA 的实践和理论优势。
论文链接
https://doi.org/10.1038/s41587-022-01432-w