为什么VAE损失不收敛到零？

pytorch、loss

我正在使用一个变分自动编码器，这是我对损失函数的实现： class VariationalAutoencoder(nn.Module): print(f'====> Epoch: {epoch} Average loss: {train_loss:.4f}') 损失不是零怎样才能使损失收敛到零？

浏览 184提问于2021-11-11得票数 1

0回答

当我将损失乘以标量时，为什么在训练Keras模型时会得到不同的结果？

python、tensorflow、machine-learning、keras、artificial-intelligence

有人知道为什么训练Keras模型可能对乘以标量的损失很敏感吗？def vae_loss (input_image, decoder_output):vae.compile(optimizer='adadelta', loss=vae</

浏览 11提问于2018-07-11得票数 1

2回答

输入值范围与损失收敛之间的联系

tensorflow、keras、deep-learning、neural-network、autoencoder

其目的是对在零背景下由均匀强度int_shape不等于零的形状组成的图像进行共振，请参见下面的int_shape = -0.25图像。但是，如果我用10，即范围(-5，5)，甚至100，即(-50，50)来缩放数据，<

浏览 0提问于2020-04-18得票数 1

回答已采纳

1回答

Tensorflow:自定义损失函数不提供梯度

keras、deep-learning、tensorflow2.0、loss-function

损失函数的作用如下。def myLossFcn(y_true, y_pred, recall_weight, spec_weight): #hyperplastic编辑我更新了我的

浏览 2提问于2021-08-26得票数 1

1回答

`.zero_grad()`和`.zero_grad`有什么区别？

python、neural-network、pytorch、gradient-descent、loss-function

我正在研究神经网络，我发现，使用*.grad_zero()，我可以正确地获得损失函数值，也可以收敛到零。其中，with *.grad_zero (不带括号)以5位数表示损失函数值。为什么"()“在FPP中很重要。谢谢。

浏览 29提问于2020-08-18得票数 0

1回答

为什么Keras如此不愿意在[-1,1]之外进行预测

keras

如果不是42，而是对y使用0.42或-0.42，它可以正常工作(4.2和-42不工作)。所以我想，一定有某种程度的规范化，在某个地方，温和地压缩输出或偏向-1。

浏览 0提问于2018-04-16得票数 2

2回答

是否总是保证损失函数的收敛性？

loss-function、optimization

(i)对于凸损失函数(即碗形)，保证批梯度下降最终收敛到全局最优，而不保证随机梯度下降。(4)对于凸损失函数(即碗形)，既不保证随机梯度下降，也不保证分批梯度下降收敛到

浏览 0提问于2020-08-13得票数 4

回答已采纳

3回答

负重训练速度太慢

cnn、training、weight-initialization

虽然我得到了快速、收敛和令人满意的结果，但训练后的权重值变化很小(而成本/损失函数却以一种看似收敛的方式迅速下降)。初始权值:卷积核为非零单元矩阵，完全连通层权为0's，激活函数为乙状结肠。数据标度从0到1。为什么权重变化这么小？

浏览 0提问于2019-02-18得票数 2

1回答

DQN损耗不收敛

tensorflow、deep-learning、reinforcement-learning、q-learning

目标是在不撞到其他汽车的情况下以预期的速度行驶。Q值也在收敛(参见图)。然而，对于所有不同的超参数设置，q损失并不收敛(见图)。我认为，Q损失的收敛性不足可能是获得更好结果的限制因素. 你知道为什么q损失不收敛吗？对于DQN算法，Q损失必须收敛吗？我想知道，为什么大多数的论文都没有讨论q

浏览 0提问于2017-10-31得票数 20

1回答

Ada-Delta方法用于MSE损失和ReLU激活的AutoEncoder去噪时不收敛？

machine-learning、deep-learning、autoencoder

这篇论文说，使用AdaDelta的SGD对超参数不敏感，并且它总是收敛到好的地方。(至少AdaDelta-SGD的输出重建损失与良好的动量法相当) 当我在去噪AutoEncoder中使用AdaDelta作为学习方法时，它确实在某些特定的设置下收敛，但并不总是收敛。当我使用均方误差作为损失函数，Sigmoid作为激活函数时，它非常快地收敛，并且经过100个时期的迭代，最终的重建损失比所有的平面SGD，动量SGD和AdaGrad都要好。但是当我使用ReLU

浏览 0提问于2014-07-19得票数 3

2回答

变分式自动编码器从译码器输入到编码器输出的反向传播

machine-learning、deep-learning、neural-network、artificial-intelligence

我试图深入了解VAE，通过自己来实现它，当将解码器输入层的损耗反向传播到编码器输出层时会遇到困难。L(sigma) = epsilon * dLz(decoder_in)这是一种工作，但从长远来看，编码的分布向量的sigma分量趋向于回归到零，因此我的VAE结果

浏览 4提问于2020-08-05得票数 6

回答已采纳

1回答

keras变分损失函数尺度

python、tensorflow、keras

我对NN和tensorflow非常陌生，最近我一直在阅读关于变分自动编码器的keras实现，我发现了两个版本的损失函数： def vae_loss(x, x_decoded_mean，版本2是同一批次中所有样本的平均损失。那么损失的规模会影响学习结果吗？我试着测试它们，这在很大程度上影响了我的潜在变量尺度。那么为什么这是正确的，哪种形式的损失函数是正确的呢？更新我的问题:如果我将original_dim与KL损失相乘， def v

浏览 0提问于2020-09-17得票数 0

0回答

在CNN上，快速损失收敛意味着什么？

batch-file、tensorflow、deep-learning、caffe、loss

网络由每个图书馆(和)的开发团队实施在葡萄牙语中，‘épocas’代表纪元，'Perda‘代表损失。为什么我的网络会以这种方式融合，

浏览 5提问于2017-12-05得票数 2

回答已采纳

1回答

Keras中的VAE在3类图像上可视化潜在空间

keras、neural-network、autoencoder

我正在用未标记的输入图像训练一个变分自动编码器(VAE)。我感兴趣的是在潜在空间中可视化3类未标记的数据。我将潜在维度设置为128，并进一步使用PCA在2D中进行可视化。其次，我的训练代码如下所示： vae.compile(optimizer='rmsprop', loss=kl_reconstruction_loss, metrics=['accuracy'])

浏览 43提问于2020-09-21得票数 1

1回答

将优化器从Adam更改为Nesterov时性能较差

optimization、deep-learning、pytorch

当我使用Adam时，损失函数可以收敛到0.19。但是当我使用Nesterov时，损失函数只能收敛到0.34。顺便说一下，如果连续3个时期没有减少损失，则学习率除以5，lr可以调整3次。我想知道为什么会发生这种情况，我应该如何优化？非常感谢您的回复：)

浏览 45提问于2021-08-30得票数 0

1回答

自定义损失函数显著降低了多gpu模型的训练速度

python、tensorflow、keras、multi-gpu

我发现问题出在损失函数上，把它改回一个内置的mse，结果和之前看到的一样快。我使用的vae_loss实现与许多教程中看到的大致相同： reconstruction_loss = recon_loss(y_truedimension return total_loss 当监控GPU使用率时，我意识到它们被很好地利用了，然后在每个时期之后下降到

浏览 1提问于2019-09-06得票数 0

1回答

MLP中ReLu的收敛性问题

machine-learning、neural-network、backpropagation、activation-function、implementation

我只使用numpy从零开始在python中创建了神经网络，我正在处理不同的激活函数。我所观察到的非常奇怪，我很想知道为什么会发生这种情况。另外，当我将初始权重改为正常分布时，它的收敛性没有问题。我知道正态分布应该比随机-1,1工作得更好更快。我不明白的是，它为什么不能与-1,1收敛(误差保持在一个又一个时代)，而不存在

浏览 0提问于2020-12-10得票数 1

回答已采纳

2回答

在tensorflow中实现KL热身:回调中的tf.keras.backend.variable在不同时期是不稳定的

python、keras、deep-learning、callback、tensorflow2.0

其思想是，在训练开始时，损失的KL项应线性增加，超过指定的几个时期。我尝试的方法是使用回调，在每次新的纪元开始时在K.variable中设置一个值，就像当前在热身所需的时间跨度内设置一个值一样(例如，如果将预热设置为持续10期，则损失中的KL项应乘以0.6)。和kl_rate回调的类中)： callbacks=[ten

浏览 11提问于2020-06-05得票数 1

回答已采纳

1回答

利用交叉熵损失去噪自动编码器饱和输出

neural-network、deep-learning、autoencoder

optimizer sigmoid activations for both encoder and decoderBatch size = 50我对正在发生的事情稍有了解。交叉熵损失在代码中定义为- tf.reduce_

浏览 4提问于2017-11-01得票数 1

1回答

Keras中的分割网络在训练过程中收敛到单级

python、tensorflow、keras、neural-network、image-segmentation

我使用的ResNet-101前端和预先训练的重量从.该模型编译成功，但在训练过程中没有收敛:它总是在1至5个训练步骤之后收敛到单个类。检查网络图，并将它们

浏览 0提问于2019-04-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当我将损失乘以标量时，为什么在训练Keras模型时会得到不同的结果？

输入值范围与损失收敛之间的联系

Tensorflow:自定义损失函数不提供梯度

`.zero_grad()`和`.zero_grad`有什么区别？

为什么Keras如此不愿意在[-1,1]之外进行预测

是否总是保证损失函数的收敛性？

负重训练速度太慢

DQN损耗不收敛

Ada-Delta方法用于MSE损失和ReLU激活的AutoEncoder去噪时不收敛？

变分式自动编码器从译码器输入到编码器输出的反向传播

keras变分损失函数尺度

在CNN上，快速损失收敛意味着什么？

Keras中的VAE在3类图像上可视化潜在空间

将优化器从Adam更改为Nesterov时性能较差

自定义损失函数显著降低了多gpu模型的训练速度

MLP中ReLu的收敛性问题

在tensorflow中实现KL热身:回调中的tf.keras.backend.variable在不同时期是不稳定的

利用交叉熵损失去噪自动编码器饱和输出

Keras中的分割网络在训练过程中收敛到单级

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐