今天带来的是Department of Biosystems Science and Engineering (D-BSSE) of ETH Zurich 研究小组在bioRxiv上发表的Conditional Generative Modeling for De Novo Protein Design with Hierarchical Functions。本论文主要针对于使用有条件的生成的对抗网络蛋白质来解决蛋白质设计问题。由于缺少了在该域中评估了生成模型的规范方式,生成模型难以评估,因为没有可以将每个生成的样本与之进行比较的基本事实。论文的主要亮点就是设计了几种生物学和统计上灵感的指标的评估方案。
编码:鉴于功能标签的层次结构,我们允许使用三种类型的标签编码 y:one-hot编码,作为标签的常用编码,庞加莱编码,将标签嵌入 一个非常适合分层数据的双曲线空间和node2vec,它通过基于随机游走对有向无环图 (DAG) 的节点进行编码来保留邻域关系。
模型:模型是如图1所示具有梯度惩罚的 Wasserstein-GAN。
图 1
评估方法:
用MMD评估分布相似度:这种方法很难直接应用于蛋白质序列数据,但可以应用于提取的特征向量。使用最大平均差异 (MMD)(MMD 已被用于从生物序列推断生物途径或序列同源性,或用于区分结构化生物序列集)。
公式 1
其中R和G是实际和生成的样本集合。
用 MRR 评估条件一致性:对于有条件的生成,我们需要评估模型的能力,以生成与某些目标标签一致的序列。我们通过计算MMD度量来计算每个标签的序列子集之间的MMD。
公式 2
评估生成序列的多样性:提出使用特征维度上的平均熵以及序列之间的平均成对 RKHS 距离评估生成序列和真实序列分布的两种启发式多样性估计。
结果:
可以从表格1中得到分布相似性和条件一致性之间的关系,表现为增加 MRR 指标会降低降低 MMD 性能。
表格 1
表格2是ProteoGAN 和具有相同或降低Mutagennesis的MMD比较。通过用它们最接近的同源物的标签替换生成序列的标签计算Homolog MRR,论文惊讶地发现简单的one-hot编码和没有附加特征的原始序列显示出最好的结果。氨基酸同一性,而不是其特性,似乎对序列建模更为关键。
表格 2