前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[Nature Communications | 论文简读] 由多序列比对训练的蛋白质语言模型学习系统发育关系

[Nature Communications | 论文简读] 由多序列比对训练的蛋白质语言模型学习系统发育关系

作者头像
智能生信
发布2022-12-29 17:31:28
2450
发布2022-12-29 17:31:28
举报
文章被收录于专栏:智能生信智能生信

简读分享 | 王宇哲 编辑 | 李仲深

论文题目

Protein language models trained on multiple sequence alignments learn phylogenetic relationships

论文摘要

近年来,自监督神经语言模型被广泛应用于生物序列数据中,促进了结构、功能和突变效应的预测。一些蛋白质语言模型,包括MSA Transformer和AlphaFold的EvoFormer,采用进化相关蛋白质的多序列比对(MSA)作为输入。MSA Transformer的行注意力的简单组合产生了最先进的无监督结构接触预测。本文证明了同样简单和通用的MSA Transformer的列注意组合与MSA序列之间的汉明距离密切相关。因此,基于MSA的语言模型编码了详细的系统发育关系。本文进一步表明,这些模型可以将编码功能和结构约束的共同进化信号从反映历史偶然性的系统发育相关性中分离出来。为了评估这一点,本文从在自然MSA上训练的Potts模型中生成合成的MSA,或没有系统发育,或有系统发育。本文发现,当使用MSA Transformer和推断Potts模型时,无监督接触预测对系统发育关系噪声的弹性更大。

论文链接

https://www.nature.com/articles/s41467-022-34032-y

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档