前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2

Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2

作者头像
DrugAI
发布于 2022-11-28 09:02:02
发布于 2022-11-28 09:02:02
5350
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 陈睿哲

本文介绍一篇拜罗伊特大学2022年7月发表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白质设计在自然环境和生物医学中发挥着重要作用,旨在为特定用途设计全新的蛋白质。受到近期Transformer架构在文本生成领域成功的启发,作者提出ProtGPT2,一种在蛋白质空间上训练的语言模型,用于生成遵循自然序列原则的全新蛋白质序列。ProtGPT2生成的蛋白质显示出天然氨基酸倾向,而无序预测表明,88%的ProtGPT2生成的蛋白质是球状的,与自然序列一致。蛋白质数据库中的敏感序列搜索表明,ProtGPT2序列与自然序列有着远亲关系,相似网络进一步证明,ProtGPT2是对蛋白质空间中未探索区域的采样。ProtGPT2生成的序列在探索蛋白质空间的未知区域时,保留了天然蛋白质的关键特征。

1

简介

近年来,预训练大模型极大地推动了自然语言处理领域的发展。作者等人注意到,蛋白质序列与人类语言有着某种相似性。蛋白质序列可以描述为化学定义的字母、天然氨基酸的串联,与人类语言一样,这些字母排列形成二级结构元素(“单词”),单词的集合形成承担功能的“句子”。蛋白质序列与自然语言一样,是信息完整的:它们以极其高效的方式完全按照氨基酸顺序存储结构和功能。随着自然语言处理领域在理解和生成具有接近人类能力的语言方面的非凡进步,作者假设这些方法为从序列的角度处理蛋白质相关问题打开了一扇新的大门,例如蛋白质设计。

受到自回归语言模型(如GPT系列)和先前采用自回归语言模型建模蛋白质序列的成功,作者想知道能否通过自回归语言模型来建模蛋白质序列,以达到:

1)高效地学习蛋白质序列语言;

2)生成合适且稳定的蛋白质;

3)理解所生成的序列与自然语言处理的关系,模型能否对未知蛋白质空间进行采样。

因此,作者提出了ProtGPT2,一种具有7.38亿参数的GPT架构的自回归模型,能够以高通量方式生成从头蛋白质序列。ProtGPT2在整个蛋白质空间的百万序列上进行训练后,有效地学习了蛋白质语言。ProtGPT2生成的蛋白质序列具有与自然序列相同的氨基酸和无序倾向,同时在进化上远离当前的蛋白质空间。二级结构预测计算出88%的序列是球状的,与天然蛋白质一致。使用相似网络表示蛋白质空间表明,ProtGPT2序列通过扩展自然超家族来探索蛋白质空间的未知区域。生成的序列显示出与自然序列类似的预测稳定性和动态特性。由于蛋白质设计在解决从生物医学到环境科学等领域的问题方面具有巨大潜力,作者认为ProtGPT2是高效高通量蛋白质工程和设计的重大进步。

2

方法

分词与词表

作者通过BPE分词器在数据集上训练,最终的词表大小为50256个tokens,每个token平均包含了4个氨基酸。

数据集

作者以Uniref50作为训练数据集,包含49874565个序列。随机选择10%的序列生成验证数据集。最终的训练和验证数据集分别包含4488万和499万个序列。作者生成了两个数据集,一个使用512的序列大小,另一个使用1024。本文中展示的结果对应于使用512大小训练的模型(后文主模型)。

模型

作者使用堆叠Transformer decoder作为模型架构,ProtGPT2模型由36层Transformer decoder组成,模型维度为1280。在自回归语言模型的条件下,每个句子的概率分布被定义为如下:

更具体的,作者通过优化句子中每个单词与其前缀的负对数似然作为目标函数来进行优化:

模型训练

输入序列为BPE分词器所分词后得到的token序列。模型权重在训练之前重新初始化。使用Adam(β1)优化模型 = 0.9, β2 = 0.999),学习率为1e-03。对于主模型,每个batch为512 tokens × 128 GPUs。每个GPU处理8个batch,总计1024个。模型在128个NVIDIA A100上训练4天。使用DeepSpeed69进行并行训练。

模型推理

作者使用主模型,使用不同的推理参数,对序列进行采样。在采样策略与采样超参数上,重复惩罚在1.1到3.0之间以0.1进行微调,选择token的范围top-k从250到1000不等,每50采样一次,并且top-p从0.7到1.0,窗口为0.05个单位(top-k采样,模型会从概率前 k 大的单词中抽样选取下一个单词;top-p采样,设定概率阈值,取满足阈值条件的样本进行采样)。基于以上的参数设定,为每种采样参数生成100个序列,并将其氨基酸的频率与自然序列进行比较。作者观察了哪些参数在自然序列中七种最常见的氨基酸组中产生的差异较小。作者还探索了50到100范围的beam search采样,但在所有情况下都会产生较差的结果。为了确定自然序列中的氨基酸频率以与ProtGPT2样本进行比较,作者从Uniref50数据集中随机选取了100万个序列。作者通过微调超参数找到了最佳匹配参数,某个采样过程如图1所示。

3

结果

统计采样

自回归语言生成基于以下假设:序列的概率分布可以分解为条件下一个词分布的乘积。然而,一个训练好的语言模型生成不连贯的乱码或重复文本并不罕见。作者简要总结了本研究中应用的最常用的语言生成采样策略与超参数。

贪婪搜索策略是在每次采样时选择概率最高的token。虽然算法简单,但生成的序列是确定性的,很快也会变得重复(图1a)。Beam search试图通过保留最可能的候选词来缓解这一问题,尽管生成的文本仍然存在重复性,人类文本往往会交替使用低概率和高概率token(图1b)。最后,通过从前k个最可能的词中随机选取一个词,随机采样远离确定性采样(图1c,d)。

根据先前关于语言模型采样策略的研究,受这项工作的启发,作者按照不同的采样策略和采样超参数生成序列(图1)。为了评估什么样的采样过程产生了最自然的相似序列,作者将生成的序列集的氨基酸倾向性与在自然蛋白质序列中发现的进行了比较。作者还观察到贪婪搜索和Beam search会产生重复的确定性序列,而随机采样显著改善了生成的倾向性(图1)。此外,作者还观察到,生成类似于自然序列的序列需要较高的k值,即最佳结果出现在k  > 800的范围内,作者特别选择了k = 950(图1h)。作者还发现,当选择1.2的重复惩罚时,采样结果得到了改善。因此,本研究的其余部分使用了这些采样参数。

ProtGPT2序列编码球状蛋白

为了在序列和结构属性的背景下评估ProtGPT2生成的序列,作者创建了两个数据集,一个是使用前面描述的推理参数从ProtGPT2生成的序列;另一个是从UR50随机选择的序列。每个数据集由10000个序列组成。由于ProtGPT2是以无监督的方式训练的,作者的分析重点是验证ProtGPT2序列的结构和生化特性。

作者首先研究了数据集中的无序和二级结构内容。之前已经表明,在细菌和古细菌中发现的蛋白质中约有14%是无序的。为此,作者运行IUPred335来分析ProtGPT2生成的序列是否比一组自然序列更容易无序。作者的分析显示,在ProtGPT2生成的序列(87.59%)和自然序列(88.40%)中,球状结构域的数量相似。已经报道了几种检测短内在无序区域的方法。由于作者的目标是提供跨数据集的球状度和普遍无序的高水平比较,作者进一步使用IUPred3在氨基酸水平上分析了蛋白质序列。值得注意的是,作者的结果显示两个数据集的有序/无序区域分布相似,ProtGPT2和自然数据集中分别有79.71%和82.59%的有序氨基酸(表1)。

接下来,作者研究了无序中的相似性是否是等效二级结构元素含量的结果。为此,作者计算了ProtGPT2和自然序列数据集的PSIPRED预测。自然序列显示α螺旋、β片和线圈含量分别为45.19%、41.87%和12.93%。ProtGPT2数据集的百分比分别为48.64%、39.70%和11.66%。这些结果表明,ProtGPT2生成的序列类似于球状结构,其二级结构与在自然界中发现的类似。

ProtGPT2序列与自然序列

蛋白质在进化过程中通过点突变以及复制和重组发生了巨大变化。然而,通过序列比较,即使两种蛋白质的序列有显著差异,也可以检测出它们之间的相似性。作者想知道ProtGPT2序列与自然序列的关系如何。为此,作者使用了HHblits,这是一种敏感的远程同源性检测工具,使用配置文件隐马尔可夫模型根据数据库搜索查询序列。作者根据Uniclust30数据库搜索ProtGPT2数据集中10000个序列的同源性。为了进行比较,作者还使用相同的设置对自然数据集执行了相同的搜索。此外,为了分析完全随机序列与ProtGPT2序列的比较情况,作者还通过随机选取词表中的25个字母进行连接,构建了第三个数据集。

因为作者想对数据集与现代蛋白质空间的相关性进行定量比较,所以作者绘制了个体与序列长度图(图2)。具体来说,对于Uniclust30中发现的每一条路线,作者描述了具有最高个体和序列长度的路线。作为序列同一长度空间中的参考点,作者使用HSSP曲线,一个边界集来定义蛋白质序列相关性的置信度。其特性低于该曲线的蛋白质,不一定具有类似的3D结构,也不可能具有同源性。由于ProtGPT2和随机数据集中的序列不是蛋白质进化的结果,作者使用曲线作为已知阈值来比较数据集。

当查看曲线上方和下方的点击分布时,作者观察到HHblits在Uniclust30数据库中发现了许多与自然序列数据集相关的点击(图2a)。具体来说,在10000个数据集序列中,9621个(96.2%)在HSSP曲线以上显示出一致性。类似地,9295个ProtGPT2生成的序列(93%)在Uniclust30数据库中也有对应的序列,它们在HSSP曲线上方对齐(图2b)。相反,93%的随机生成序列低于该阈值(图2c)。尽管natural和ProtGPT2数据集的模式相似,但这两个数据集在点击分布上存在差异。一个标准差范围为31.5–69.7%,自然数据集的平均同一性高于ProtGPT2集,范围为32.9–64.1%(图2a,b)。自然和ProtGPT2序列分布之间的差异无统计学意义(p值90%)。尽管ProtGPT2数据集中的365个序列在Uniclust30中具有高同一性序列,但它们在所有情况下都对应于低于15个氨基酸的比对,而自然数据集显示760个序列超过90%,比对长度在14.8–77.3个氨基酸的一个标准差范围内。这些结果表明,ProtGPT2有效地生成了与自然序列有远亲关系的序列,但不是记忆和重复的结果。

ProtGPT2生成有序结构

设计全新蛋白质序列时最重要的特点就是能否够折叠成稳定的有序结构。作者在AlphaFold预测、Rosetta松弛分数和分子动力学(MD)模拟下,评估了ProtGPT2序列与自然和随机序列的潜在适合度。

AlphaFold在0-100(pLDDT)范围内生成其置信度的每残留估计值。该分数已被证明与顺序相关:低分数(pLDDT>50)往往出现在无序区域,而优秀分数(PLDD>90)出现在有序区域。在这里,作者对每个序列进行了五个结构预测。当采用每个序列的最佳评分结构时,数据集的平均pLDDT为63.2,当对每个序列的所有五个预测进行平均时,为59.6。此外,37%的序列显示pLDDT值超过70。由于pLDDT分数是结构顺序的代理,作者转向自然和随机数据集,看看它们与ProtGPT2序列相比如何。与之前的工作一致,自然数据集中66%的序列预测pLDDT值大于7043,整个数据集的平均值为75.3(补充图2b)。相反,随机数据集中的预测显示pLDDT的平均值为44,pLDDT值超过70的序列中只有7.4%(补充图2c)。

为了进一步验证模型的质量,作者在三个数据集上执行了Rosetta RelaxBB。Rosetta Relax对Rosetta能量函数执行蒙特卡洛优化,从而产生不同的骨架和转子分子构象。较低的罗塞塔能量构象与较松弛的结构相关。最新的罗塞塔能量力场与热容、密度和焓等实验变量密切相关。该评分函数反映了一种静态蛋白质构象的热力学稳定性。在这里,作者对三个数据集的30000个序列进行了Rosetta松弛实验(图3a)。一个广泛的经验法则是,总分(罗塞塔能量单位,REU)应介于−1和−3/残基。作者在天然和ProtGPT2数据集中观察到这种分布,平均值分别为1.90和1.73 REU/残基。正如预期的那样,随机序列的数据集显示平均值为0.13 REU/残基。

作者进一步测试了ProtGPT2序列是否显示出与自然序列类似的动态特性。蛋白质是动态实体,如果没有其固有的灵活性,它们将无法与其他生物分子相互作用并在细胞中发挥其功能。为了评估ProtGPT2生成的序列是否在与天然蛋白质相同的范围内显示灵活性,作者随机选择每个数据集的12个序列,并运行了100个分子动力学(MD)的三个副本,共108条轨迹,总时间为10.8微秒。为了确保在模拟过程中观察到的动力学不是不同pLDDT值的伪影,因此可能是不同的无序预测,作者确保数据集pLDDT平均值之间的差异在统计上没有差异。自然和ProtGPT2数据集中每条轨迹的均方根偏差平均值分别为2.93和3.12 分别为(图3b)。正如预期的那样,随机序列在轨迹期间显示出显著的偏差,平均值为9.41 Å. 虽然ProtGPT2序列的值高于自然序列,但分布没有显著差异。结果表明,ProtGPT2序列可能与自然界中发现的蛋白质具有类似的动力学特性。

ProtGPT2超越了当前蛋白质空间边界

有几项研究试图将蛋白质序列的维度降低为几个可识别的维度,以便进行分析。大多数表示方法包括(i)蛋白质结构的层次分类,如ECOD和CATH数据库,(ii)笛卡尔表示和相似网络。作者最近在一个网络中表示结构空间,该网络将蛋白质显示为节点,当它们在common中具有同源和结构相似的片段时连接,并在Fuzzle数据库中提供结果。该网络代表来自七个主要SCOP类的25000个域,并表明现代已知的蛋白质空间既有连接的区域,也有“岛状”区域。

进化已经探索了所有可能的蛋白质序列,但并不可信。因此,作者想设计出探索蛋白质空间未探索区域的蛋白质,以及是否可以设计出新的拓扑结构和功能,提出了挑战。作者将ProtGPT2序列整合到作者的蛋白质空间网络表示中。为此,作者为每个SCOPe2.07和ProtGPT2序列生成了HMM配置文件,使用HHsearch以all对all的方式对它们进行比较,并用Protlego表示网络。为了避免具有多个对齐的特定序列最终由网络中的同一节点表示,作者用两个不重叠的对齐复制条目。

该网络包含59612个顶点和427378条边,包括1847个组件或“岛状”簇(图4)。主要成分聚集了一半以上的节点(30690),这一数字明显高于在相同设置下生成的网络中观察到的数量,但不包括ProtGPT2序列,强烈表明ProtGPT2生成的序列桥接了蛋白质空间中的独立岛。作者从拓扑不同的作用域类中选择了跨越网络不同区域的六个示例,以在结构级别展示ProtGPT2序列(图4)。特别是,作者报告了一个全β(751),两个α/β(42661068),一个膜蛋白(4307),一个α + β(486)和全α(785)结构。这些结构说明了ProtGPT2在生成从头结构方面的多功能性。对于每种情况,作者使用FoldSeek58搜索PDB数据库中发现的最相似的蛋白质结构。ProtGPT2生成折叠良好的全β结构(751,4307),尽管最近取得了令人印象深刻的进展,但长期以来一直非常具有挑战性。ProtGPT2还生成膜蛋白(4307),由于在指定膜内结构方面的挑战和繁重的实验表征,这对蛋白质设计提出了一个困难的目标。除了生成自然折叠代表外,ProtGPT2还产生了以前未收录的拓扑结构。例如,作者报告了蛋白质4266,其拓扑结构与目前PDB收录中的任何结构都不匹配,DALI Z分数低为5.4,RMSD为3.0 Å到PDB 5B48超过67个残基(9%)。

然而,ProtGPT2序列最显著的特性可能是其与所有先前设计的从头结构的显著偏差,这些结构通常具有环路和最小结构元素的理想拓扑。从头蛋白质设计的优点是不携带任何进化历史,但在实践中,缺乏实例和更长的环阻碍了与其他分子相互作用和功能实现所需的裂缝、表面和空腔的设计。ProtGPT2序列类似于天然蛋白质的复杂性,具有多方面的表面,能够分配相互作用的分子和底物,从而为功能化铺平了道路。在图4中,作者展示了结构486和1060,这是此类复杂结构的两个示例。特别是,1068显示了TIM-barrel褶皱,该拓扑迄今为止在从头蛋白质设计中取得了成功,但其理想化结构已被证明具有挑战性,无法通过额外的secondary elements和更长的环进行扩展。

保留的功能热点

对FoldSeek发现的最佳点击结构叠加进行检查,发现了几个配体相互作用残基的侧链保守的例子。图5中显示了两个示例。最类似于序列357(图5a)的自然结构对应于PDB代码1X0P(链A),一个结合FAD的蓝光传感器域。当重叠结构时,作者观察到357保留了侧链结合热点,三个残基相同(D169、Q150和N131),两个不同但能够形成相同相互作用的残基,即R165位的赖氨酸和K127位的组氨酸。序列475(图5b)最类似于PDB代码5M1T(链A),折叠成TIM-barrel并与细菌第二信使环二-3′,5′-鸟苷单磷酸(PDB三字母代码C2E)结合的磷酸二酯酶。在五个侧链相互作用的残基中,ProtGPT2序列保留了三个残基(Q455、R473和E469),并包括一个取代另一个能够氢键的残基(用于Q513的天冬氨酸)。值得注意的是,ProtGPT2以zero-shot生成了这些序列,即在这两个特定折叠中没有进一步微调。这些结果对蛋白质工程产生了重大影响,因为尽管同源性较低(357和45分别为31.1%和29.2%),但ProtGPT2似乎保留了生成序列中的结合位置,并可用于增加特定折叠和家族的序列。

4

总结

过去的2年里,利用人工智能方法的从头蛋白质设计取得了惊人的成功。作者构建了一个自回归语言模型ProtGPT2,ProtGPT2有效地学习了蛋白质语言。ProtGPT2可以生成与自然序列有远近关系的序列,其结构类似于已知的结构空间,具有非理想化的复杂结构。由于ProtGPT2已在整个序列空间上训练,因此该模型产生的序列可以对任何区域进行采样,包括深色蛋白质组和传统上认为在蛋白质设计领域非常具有挑战性的区域,例如全β结构和膜蛋白。ProtGPT2蛋白质与远亲天然蛋白质结构的视觉叠加显示,PROTGPT1还捕获了功能决定簇,保留了配体结合的相互作用。由于人工蛋白质的设计可以解决许多生物医学和环境问题,作者在蛋白质语言模型中看到了巨大的潜力。ProtGPT2设计在几秒钟内即可适应球状蛋白质,无需进行进一步训练。通过根据用户序列微调模型,ProtGPT2可以适应特定的家族、功能或折叠。在这种情况下,ProtGPT2将能够筛选与天然蛋白质相似的蛋白质,以改善、微调或改变天然蛋白质的特定生化功能。大规模筛选ProtGPT2设计的蛋白质库可能会识别数据库中未捕获的蛋白质折叠以及在自然界中没有相关对应功能的蛋白质。ProtGPT2是面向高效蛋白质设计和生成迈出的一大步,为探索设计蛋白质结构和功能的参数及其后续实际应用的实验研究奠定了基础。

参考资料

Ferruz, N., Schmidt, S. & Höcker, B. ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun 13, 4348 (2022).

https://doi.org/10.1038/s41467-022-32007-7

项目主页

https://huggingface.co/nferruz/ProtGPT2

代码

https://huggingface.co/docs/transformers/main_classes/trainer

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​[Nature Communications | 论文简读] ProtGPT2是一个用于蛋白质设计的深度无监督的语言模型
ProtGPT2 is a deep unsupervised language model for protein design
智能生信
2022/12/29
6910
​[Nature Communications | 论文简读] ProtGPT2是一个用于蛋白质设计的深度无监督的语言模型
Nat. Biotechnol. | 利用语言模型设计蛋白质
今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?
DrugAI
2024/03/26
2270
Nat. Biotechnol. | 利用语言模型设计蛋白质
Nat. Commun.|概率蛋白质序列模型的生成能力
本文介绍了由坦普尔大学Vincenzo Carnevale和Allan Haldane共同通讯发表在Nature Communications的研究成果:本文提出了一个新的标准来度量蛋白质序列生成模型(GPSM)的准确性和生成能力,并使用该标准比较了不同GPSM的生成能力。与之前的度量标准相比,能够直接测量高阶边缘值,衡量GPSM捕获高阶协变的能力,对GPSM的准确性和生成能力有更加直接和科学的度量。
DrugAI
2021/12/09
5960
Nat. Commun.|概率蛋白质序列模型的生成能力
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
今日分享的是巴黎索邦大学、都灵理工大学和巴黎高等师范学院联合发表的文章,该篇文章介绍了一个基于简单自回归模型的蛋白质序列高效生成模型。生成模型的优越性表现在不仅可以设计基于序列数据的蛋白质,也可以提取深深地隐藏在序列数据库中蛋白质的结构和功能信息。本文提出了基于简单自回归模型的高准确率、高计算效率的序列生成模型。其性能类似于现有的基于玻尔兹曼机或深度生成模型的方法,但计算成本大大降低。此外,该模型的简单结构具有独特的数学优势,提高了在序列生成和评估上的适用性。
DrugAI
2021/11/15
6530
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
GPT进入蛋白质组学:LLM如何推动生命科学变革
科学家们将Transformer模型(GPT)应用于蛋白质序列数据,试图在蛋白质组学领域复制大语言模型(LLM)的成功。本篇文章将带你了解蛋白质语言模型(pLM)的起源、发展及其尚待解决的问题。
用户11203141
2025/03/06
840
GPT进入蛋白质组学:LLM如何推动生命科学变革
ProGen:蛋白质生成语言模型
今天给大家介绍的是一项由硅谷Salesforce Research的Ali Madani等人和斯坦福的Possu Huang教授课题组合作的工作,他们在这篇论文中提出的一种蛋白生成语言模型ProGen。作者将蛋白质工程视为无监督序列生成问题,利用大约2.8亿个的蛋白质序列对12亿个参数进行训练,且要求这些蛋白质序列是基于分类和关键字标签的,如分子功能和细胞成分,这为ProGen模型提供了前所未有的进化序列多样性,并允许它进行基于一级序列相似性、二级结构准确率和构像能量的细粒度控制生成。根据NLP指标,ProGen模型表现出良好的性能,且随着氨基酸上下文和条件标签的增多,模型效果会进一步提升。ProGen也适用于未见的蛋白家族,若进行微调,模型效果更好。
DrugAI
2021/02/02
1.2K0
ProGen:蛋白质生成语言模型
Nat. Comput. Sci. | 基于评分的生成建模用于全新蛋白质设计
今天为大家介绍的是来自Philip M. Kim团队的一篇关于蛋白质设计的的论文。在蛋白质设计中,通过预定义的功能和特性生成全新的蛋白质结构仍然是一个具有挑战性的问题。最近,扩散模型,也称为基于评分的生成模型(SGM),在图像合成方面展现出了惊人的实证性能。在这里,作者使用基于图像的蛋白质结构表示来开发ProteinSGM,这是一个基于评分的生成模型,能够产生逼真的全新蛋白质。通过无条件生成,作者展示了ProteinSGM能够生成类似天然蛋白质结构,超过了以前报告的生成模型的性能。
DrugAI
2023/09/19
3650
Nat. Comput. Sci. | 基于评分的生成建模用于全新蛋白质设计
Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革
「大语言模型」不仅可以用于人类语言,也可以用于蛋白质的「语言」,而且两者之间有很多相似之处。
新智元
2024/06/05
2490
Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革
Nat. Commun. | 通过折叠扩散生成蛋白质结构
今天为大家介绍的是来自Ava P. Amini团队的一篇论文。文章讲述了一种计算方法,这种方法能够生成新的、在物理上可折叠的蛋白质结构,这对于新的生物学发现以及针对当前还无法治愈的疾病的新疗法具有重要意义。
DrugAI
2024/03/18
2220
Nat. Commun. | 通过折叠扩散生成蛋白质结构
Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测
今天给大家介绍哈佛大学Andrew C. Kruse教授团队在Nature Communications上发表的一篇文章“Protein design and variant prediction using autoregressive generative models”。在该文章中,作者开发了一种新的自回归生成模型,用于预测和设计蛋白质功能序列,并且无需序列比对。实验结果表明,该模型能够很好地预测错义突变,序列片段的插入和缺失,并且能够泛化到超出了预测和设计范围的序列空间域。
DrugAI
2021/05/24
1.2K0
Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测
Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体
今天为大家介绍的是来自斯坦福大学研究团队的一篇利用语言模型模拟人类抗体自然演化的论文。自然进化必须探索广阔的可能序列空间,以寻找稀有但理想的突变,这表明从自然进化策略中学习可以指导人工进化。在这里,作者报告了一种利用通用蛋白质语言模型能够高效演化人类抗体的方法,该方法通过提出在进化上是合理的突变来改进抗体,尽管该模型没有提供关于目标抗原、结合特异性或蛋白质结构的任何信息。作者进行了七种抗体的语言模型引导提高亲和力实验,每种抗体仅经历两轮实验进化,筛选了每种抗体的20个或更少的变种。结果显示,作者成功将四种临床相关、高度成熟的抗体的结合亲和力提高了多达七倍,将三种未成熟抗体的结合亲和力提高了多达160倍。此外,许多设计还展示出良好的热稳定性和对埃博拉病毒和严重急性呼吸综合征冠状病毒2(SARS-CoV-2)假病毒的中和活性。改善抗体结合的相同模型还可以指导不同蛋白质家族和选择压力下的高效进化,包括抗生素抗性和酶活性,这表明这些结果适用于许多情境。
DrugAI
2023/09/19
3960
Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
今天为大家介绍的是来自Clara T. Schoeder团队的一篇论文。计算蛋白质序列设计的目标是修改现有蛋白质或创建新蛋白质,但在没有对蛋白质动态和变构调控进行预测的情况下设计稳定且功能性的蛋白质具有挑战性。在蛋白质设计方法中引入进化信息可以将突变的空间限制在更类似原生蛋白的序列中,从而在保持功能的同时提高稳定性。最近,经过对数百万蛋白质序列训练的语言模型在预测突变效果方面表现出色。使用语言模型对Rosetta设计的序列进行评估,其评分低于其原始序列。为了在Rosetta设计协议中引入语言模型的预测,我们使用ESM(Evolutionary Scale Modeling,进化尺度建模)模型添加了一种新指标,以在设计过程中约束能量函数。生成的序列在语言模型评分和序列恢复方面表现更好,且Rosetta能量评估显示其适应性仅略微下降。总之,作者的工作结合了最新的机器学习方法与Rosetta蛋白质设计工具箱的优势。
DrugAI
2024/05/25
2680
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
今天为大家介绍的是来自字节跳动Quanquan Gu团队的一篇论文。这篇论文介绍了扩散蛋白质语言模型(DPLM),这是一种多才多艺的蛋白质语言模型,展示了对蛋白质序列强大的生成和预测能力。首先,作者在一个生成自监督离散扩散概率框架中,使用进化尺度的蛋白质序列进行可扩展的DPLM预训练,这以一种有原则的方式推广了蛋白质的语言建模。在预训练之后,DPLM展示了无条件生成结构上合理、新颖且多样的蛋白质序列的能力。作者进一步证明了所提出的扩散生成预训练使DPLM对蛋白质有更好的理解,成为一种更优的表示学习者,可以针对各种预测任务进行微调,与ESM2相比具有优势。此外,DPLM可以根据各种需求进行定制,展示了其在多种条件生成方面的强大能力:(1)基于部分肽序列的条件生成,例如高成功率地生成功能基序(functional motif)的支架(scaffold);(2)将其他模态作为条件,如结构条件生成用于逆折叠;(3)通过插入式分类器引导,将序列生成引导至所需的特性,例如满足指定的二级结构。
DrugAI
2024/07/05
2670
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
预测变异效应对蛋白质稳定性和功能的影响,对于理解蛋白质的功能机制至关重要。然而,蛋白质变异效应的分析需要对海量数据进行处理,特别是需要评估几乎所有可能的单氨基酸取代的影响,来深入表征蛋白质突变的影响。利用机器学习模型可以帮助研究者深入了解蛋白质变异效应,并为进一步的实验验证确定优先级。近年来,蛋白质语言模型在蛋白质结构和功能预测的多个任务中表现优秀,将蛋白质语言模型应用到蛋白质变异效应预测中,有望进一步提升预测准确度。
智药邦
2024/12/31
1230
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
汪小我等|DIProT:基于深度学习的交互式工具包,用于高效和有效的蛋白质设计
2024年2月8日,来自清华大学自动化系的汪小我团队在Synthetic and Systems Biotechnology上发表文章DIProT: A deep learning based interactive toolkit for efficient and effective Protein design。
智药邦
2024/04/01
2480
汪小我等|DIProT:基于深度学习的交互式工具包,用于高效和有效的蛋白质设计
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
今天为大家介绍的是来自Jinbo Xu研究团队的一篇关于蛋白质结构预测的论文。蛋白质侧链装配(Protein side-chain packing,PSCP)是指在只给定主链原子位置的情况下确定氨基酸侧链构象的任务,对蛋白质结构预测、精化和设计具有重要应用。了解决这个问题,作者提出了AttnPacker,一种用于直接预测蛋白质侧链坐标的深度学习(DL)方法。与现有方法不同,AttnPacker直接利用主链的三维几何信息,同时计算所有侧链的坐标,而无需借助离散的构象库或进行昂贵的构象搜索和采样步骤。这大大提高了计算效率,相比基于DL的方法DLPacker和基于物理的RosettaPacker,推理时间减少了超过100倍。
DrugAI
2023/09/19
2540
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
Nat.Mach.Intell | ProteinGAN:利用生成对抗网络扩展功能蛋白序列空间
蛋白从头设计是蛋白质工程的长期课题,目前计算方法难以将蛋白序列映射至其功能。然而,今年3月Nature Machine Intelligence发表的一篇文章,似乎找到了序列与功能间的映射之法。作者提出ProteinGAN,一种基于自注意力机制的生成对抗网络,能够“学习”天然蛋白序列的多样性,并且进一步生成功能蛋白序列。ProteinGAN从复杂的多维氨基酸序列空间中学习序列间的进化关系,经实验验证,生成了具有天然物理性质的新序列。
智能生信
2021/04/13
7710
Nat.Mach.Intell | ProteinGAN:利用生成对抗网络扩展功能蛋白序列空间
Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测
今天为大家介绍的是来自Animashree Anandkumar团队的一篇论文。由蛋白和小分子构成的结合复合物是普遍存在的,对生命至关重要。尽管近年来蛋白质结构预测技术有了显著进展,现有算法仍未能系统地预测配体结构及其对蛋白质折叠的调控效应。为了解决这一差异,作者提出了一种名为NeuralPLexer的计算方法,能够仅通过蛋白质序列和配体分子图直接预测蛋白质-配体复合物结构。NeuralPLexer采用深度生成模型,按原子分辨率抽样结合复合物的三维结构及其构象变化。该生成模型基于扩散过程,整合了基本的生物物理限制和多尺度几何深度学习系统,以层次化方式迭代抽样残基级接触图和所有重原子坐标。与所有现有方法相比,NeuralPLexer在蛋白质-配体盲对接(blind protein-ligand docking)和柔性结合位点结构复原(flexible binding-site structure recovery)的基准测试上实现了最先进的性能。此外,由于其在采样配体自由态和配体结合态集合方面的特异性,NeuralPLexer在全局蛋白质结构预测准确性上一致超过AlphaFold2,无论是在具有大构象变化的代表性结构对还是在最近确定的配体结合蛋白上。NeuralPLexer的预测与酶工程和药物发现中重要靶标的结构测定实验相一致,显示出其在加速设计功能性蛋白质和小分子药物的潜力,有望在蛋白组学规模上实现。
DrugAI
2024/05/22
2110
Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测
Nat. Commun. | SSEmb:蛋白质序列和结构的联合嵌入构建变异效应预测模型
今天为大家介绍的是来自哥本哈根大学Amelie Stein与Kresten Lindorff-Larsen团队的一篇论文。预测氨基酸变化如何影响蛋白质的能力在许多领域都有广泛的应用,包括疾病变异分类和蛋白质工程。许多现有方法侧重于从蛋白质序列或结构中发现的模式中学习。而作者提出了一种将序列和结构信息整合到单一模型中的方法,称为SSEmb(Sequence Structure Embedding)。SSEmb结合了蛋白质结构的图表示和用于处理多序列比对(MSA)的Transformer模型。作者展示了通过整合这两种信息类型,能够获得一个在序列信息稀缺情况下仍然具有鲁棒性的变异效应预测模型。同时,作者还发现SSEmb能够学习序列和结构的嵌入,这些嵌入在其他下游任务中同样具有实用性,例如预测蛋白质-蛋白质结合位点。作者设想,SSEmb不仅可以应用于变异效应预测,还可以作为学习依赖于序列和结构的蛋白质属性预测的表示形式。
DrugAI
2024/12/20
2240
Nat. Commun. | SSEmb:蛋白质序列和结构的联合嵌入构建变异效应预测模型
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
无监督接触预测 (Unsupervised Contact Prediction) 是在蛋白质结构测定和设计过程中揭示蛋白质物理、结构和功能约束的核心。几十年来,主要的方法是从一组相关序列中推断进化约束。在过去的一年里,蛋白质语言模型已经成为一种潜在的替代方法,但目前性能还没有达到生物信息学中最先进的方法。本文证明了Transformer的注意图 (Attention Map) 能够从无监督语言建模目标中学习蛋白质序列中各个残基之间的接触距离。我们发现,迄今为止已经训练过的最高容量模型已经优于当前最先进的无监督接触预测的工作流程,这表明过去这些繁琐的工作流程可以用端到端模型的单向传递工作流程来代替。
智能生信
2021/02/04
2.8K0
推荐阅读
​[Nature Communications | 论文简读] ProtGPT2是一个用于蛋白质设计的深度无监督的语言模型
6910
Nat. Biotechnol. | 利用语言模型设计蛋白质
2270
Nat. Commun.|概率蛋白质序列模型的生成能力
5960
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
6530
GPT进入蛋白质组学:LLM如何推动生命科学变革
840
ProGen:蛋白质生成语言模型
1.2K0
Nat. Comput. Sci. | 基于评分的生成建模用于全新蛋白质设计
3650
Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革
2490
Nat. Commun. | 通过折叠扩散生成蛋白质结构
2220
Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测
1.2K0
Nat. Biotechnol. | 从通用蛋白质语言模型中高效演化人类抗体
3960
ACS Synth. Biol. | 使用ESM作为约束,将 Rosetta 序列设计与蛋白质语言模型预测相结合
2680
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
2670
慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测
1230
汪小我等|DIProT:基于深度学习的交互式工具包,用于高效和有效的蛋白质设计
2480
PNAS | 一种用于蛋白质侧链装配和逆向折叠的端到端深度学习方法
2540
Nat.Mach.Intell | ProteinGAN:利用生成对抗网络扩展功能蛋白序列空间
7710
Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测
2110
Nat. Commun. | SSEmb:蛋白质序列和结构的联合嵌入构建变异效应预测模型
2240
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
2.8K0
相关推荐
​[Nature Communications | 论文简读] ProtGPT2是一个用于蛋白质设计的深度无监督的语言模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文