前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >蛋白质语言建模?伯克利RoshanRao157页博士论文《训练,评估和理解蛋白质序列的进化模型》

蛋白质语言建模?伯克利RoshanRao157页博士论文《训练,评估和理解蛋白质序列的进化模型》

作者头像
数据派THU
发布2022-04-06 14:12:11
2990
发布2022-04-06 14:12:11
举报
文章被收录于专栏:数据派THU
代码语言:javascript
复制
来源:专知本文约1000字,建议阅读5分钟本文介绍了在一个通用基准上训练和评估蛋白质语言模型的方法。

最近,伯克利大学Roshan Rao 157页博士论文介绍了在通用基准上训练和评估蛋白质语言模型的方法。随后,研究了模型缩放、数据预处理和训练超参数对transformer在无监督的情况下学习蛋白质接触能力的影响,然后提出了一种在MSA上操作而不是在单个序列上操作的新方法,并证明了该方法在多个下游任务上实现了最优的性能。最后,讨论了所有这些方法在蛋白质设计中的应用。

作者介绍:

Meta AI的一名研究科学家,研究蛋白质序列的神经进化模型。之前,我在加州大学伯克利分校攻读博士学位,在那里我得到了John Canny和Pieter Abbeel的指导!

https://rmrao.github.io/作者发表的文章

训练,评估和理解蛋白质序列的进化模型Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences  

新的蛋白质序列通过突变产生。这些突变可能是有害的,有益的,或中性的;突变对生物体进化适应性的影响反映在生物体存活的时间是否足够长,使其蛋白质能够被采样并储存在序列数据库中。长期以来,生物信息学一直寻求利用这种进化信号,通常以多重序列比对(MSAs)的形式,来推断新蛋白质的结构和功能。随着神经网络和自监督预训练的出现,一种不同的方法出现了,使用语言建模目标对大规模神经网络进行预训练,从输入的蛋白质序列自动生成信息特征。

本文介绍了在一个通用基准上训练和评估蛋白质语言模型的方法。随后,研究了增加模型扩展、数据集预处理和超参数训练对transformers 在没有监督的情况下学习蛋白质接触能力的影响。一种新的方法操作在MSAs而不是单一序列,然后提出,并显示在几个下游任务达到最先进的性能。最后,讨论了这些方法在蛋白质设计中的应用。

本论文试图回答关于蛋白质序列语言建模的三个关键问题:

1. NLP中非监督学习的标准方法是否能学习生物学相关的特征?

2. 我们如何定制用于训练蛋白质的无监督模型的数据、模型和任务?

3. 蛋白质序列的大规模无监督模型能用于蛋白质设计吗?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档