首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么是“后崩溃”现象?

什么是“后崩溃”现象?
EN

Data Science用户
提问于 2019-04-09 12:50:21
回答 1查看 19.8K关注 0票数 18

我正在阅读这篇关于用逆学习神经轮廓实现文本生成的论文,它说明了为什么由于这个问题,VAE很难进行文本生成的训练。论文陈述

该模型最终完全依赖于解码器的自回归特性,而忽略了潜在的变量,这些变量变得信息不丰富。

请用清晰的方式简化和解释这个问题。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-04-09 15:54:06

Z-强迫:训练随机递归网络提供的更好解释的帮助下:

当后验不折叠时,从z_d (潜变量z的d维数)中抽取q_{\phi}(z_d|x)=\mathcal{N}(\mu_d, \sigma^2_d),其中\mu_d\sigma_d是输入x的稳定函数。换句话说,编码器从x中提取有用的信息到\mu_d\sigma_d中。

当输入x到后验参数的信号太弱或太噪声时,译码器开始忽略从后验q_{\phi}(z|x)提取的z样本。

太吵的信号意味着\mu_d\sigma_d是不稳定的,因此采样的z's也是不稳定的,这迫使解码器忽略它们。所谓“忽略”,我的意思是:译码器\hat{x}的输出几乎独立于z,在实践中,这意味着产生一些通用输出-- \hat{x}是所有看过的x's的粗略代表。

太微弱的信号转化为

q_{\phi}(z|x)\simeq q_{\phi}(z)=\mathcal{N}(a,b)

这意味着后路的\mu\sigma几乎与输入x断开。换句话说,\mu\sigma崩溃为恒定值ab将弱(常数)信号从不同的输入传输到解码器。因此,解码器试图通过忽略从x中抽取的无用的z's来重建\mathcal{N}(a,b)

以下是Z-强迫:训练随机递归网络的一些解释:

在这些情况下,由于随机梯度近似引起的方差,后验近似往往提供过弱或噪声信号。因此,解码器可以学会忽略z,而只依赖x的自回归性质,从而使x和z是独立的,即方程中的KL项。2消失。

在文本和图像等各个领域,经验观察表明,当与强大的自回归译码器相结合时,很难利用潜在变量。

为了清晰起见,KL术语最简单的形式是

D_{KL}(q_{\phi}(z|x) \parallel p(z|x)) = D_{KL}(q_{\phi}(z|x) \parallel \mathcal{N}(0,1))

对于p(z|x),本文使用了一个更复杂的高斯先验。

票数 25
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/48962

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档