前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于条件生成模型的分层功能从头蛋白质设计

基于条件生成模型的分层功能从头蛋白质设计

作者头像
DrugAI
发布2021-12-29 15:55:50
5380
发布2021-12-29 15:55:50
举报
文章被收录于专栏:DrugAIDrugAI

今天带来的是Department of Biosystems Science and Engineering (D-BSSE) of ETH Zurich 研究小组在bioRxiv上发表的Conditional Generative Modeling for De Novo Protein Design with Hierarchical Functions。本论文主要针对于使用有条件的生成的对抗网络蛋白质来解决蛋白质设计问题。由于缺少了在该域中评估了生成模型的规范方式,生成模型难以评估,因为没有可以将每个生成的样本与之进行比较的基本事实。论文的主要亮点就是设计了几种生物学和统计上灵感的指标的评估方案。

编码:鉴于功能标签的层次结构,我们允许使用三种类型的标签编码 y:one-hot编码,作为标签的常用编码,庞加莱编码,将标签嵌入 一个非常适合分层数据的双曲线空间和node2vec,它通过基于随机游走对有向无环图 (DAG) 的节点进行编码来保留邻域关系。

模型:模型是如图1所示具有梯度惩罚的 Wasserstein-GAN。

图 1

评估方法:

用MMD评估分布相似度:这种方法很难直接应用于蛋白质序列数据,但可以应用于提取的特征向量。使用最大平均差异 (MMD)(MMD 已被用于从生物序列推断生物途径或序列同源性,或用于区分结构化生物序列集)。

公式 1

其中R和G是实际和生成的样本集合。

用 MRR 评估条件一致性:对于有条件的生成,我们需要评估模型的能力,以生成与某些目标标签一致的序列。我们通过计算MMD度量来计算每个标签的序列子集之间的MMD。

公式 2

评估生成序列的多样性:提出使用特征维度上的平均熵以及序列之间的平均成对 RKHS 距离评估生成序列和真实序列分布的两种启发式多样性估计。

结果:

可以从表格1中得到分布相似性和条件一致性之间的关系,表现为增加 MRR 指标会降低降低 MMD 性能。

表格 1

表格2是ProteoGAN 和具有相同或降低Mutagennesis的MMD比较。通过用它们最接近的同源物的标签替换生成序列的标签计算Homolog MRR,论文惊讶地发现简单的one-hot编码和没有附加特征的原始序列显示出最好的结果。氨基酸同一性,而不是其特性,似乎对序列建模更为关键。

表格 2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档