深度学习中的不可导操作(次梯度和重参数化)

Houye

修改于 2020-04-15 12:46:53

1.5K0

修改于 2020-04-15 12:46:53

文章被收录于专栏：图与推荐

深度学习中的绝大多数模型都是靠求导梯度下降来进行参数更新. 但是如果遇到不可求导的操作该怎么办? 这时候如何优化我们的模型呢.

本文盘点了深度学习中的不可导操作(次梯度和重参数化).

主要包括两大类

[TOC]

image-20200116220613949

其图像如下

为什么需要gumbel-softmax

乍看起来，gumbel-softmax 的用处令人费解。比如上面的代码示例，直接使用 softmax，也可以达到类似的参数训练效果。但两者有着根本的区别。原理上，常规的 softmax 直接建模了一个概率分布（多项分布），基于交叉熵的训练准则使分布尽可能靠近目标分布；而 gumbel-softmax 则是对多项分布采样的一个近似。使用上，常规的有监督学习任务（分类器训练）中，直接学习输出的概率分布是自然的选择；而对于涉及采样的学习任务（VAE 隐变量采样、强化学习中对actions 集合进行采样以确定下一步的操作），gumbel-softmax 提供了一种再参数化的方法，使得模型可以以端到端的方式进行训练。

Ref

CATEGORICAL REPARAMETERIZATION WITH GUMBEL-SOFTMAX
https://zhuanlan.zhihu.com/p/35218887
https://casmls.github.io/general/2017/02/01/GumbelSoftmax.html
http://lips.cs.princeton.edu/the-gumbel-max-trick-for-discrete-distributions/
https://blog.csdn.net/jackytintin/article/details/53641885
大量tf代码实例
https://www.quora.com/How-do-we-compute-the-gradient-of-a-ReLU-for-backpropagation
https://blog.csdn.net/jackytintin/article/details/79364490

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-01-17，如有侵权请联系 cloudcommunity@tencent.com 删除

https