开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >CNNs and Deep Q Learning

CNNs and Deep Q Learning

作者头像

Steve Wang

发布于 2019-11-12 22:49:11

4550

发布于 2019-11-12 22:49:11

举报

文章被收录于专栏：从流域到海域从流域到海域

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。undefined本文链接：https://cloud.tencent.com/developer/article/1537748

前面的一篇博文介绍了函数价值近似，是以简单的线性函数来做的，这篇博文介绍使用深度神经网络来做函数近似，也就是Deep RL。这篇博文前半部分介绍DNN、CNN，熟悉这些的读者可以跳过，直接看后半部分的Deep Q Learning Part。

Generalization

为什么要使用网络来做近似。

希望能使用强化学习来处理自动驾驶汽车，Atari，消费者市场，医疗，教育等等这些领域一般都会有表格表示无法cover的高维输入特征(signals)或者说观察
多数上述领域有巨大的状态(state)和/或动作(action)空间
需要能在状态和/或动作之间泛化的Representation(模型的表示/状态-动作价值的表示/价值的表示/策略的表示)
那我们就用一个参数化的函数代替表格来表示一个(状态-动作/状态)价值函数

Recall: Stochastic Gradient Descent

上一篇博客概述：Linear Value Function Approximation for Prediction With An Oracle

RL with Function Approximator

线性价值函数器近似假定价值函数是一个一系列特征的加权组合，其中每一个特征是其状态的函数
线性VFA通常在给定正确的特征集的条件下表示很好
但是需要仔细地手动设计特征集
一个替代方案是使用更丰富的函数近似簇，他们能够从状态(States)中直接获取而不需要显式的规定所有的特征。
本地表示(local representation)，其中包括基于核的方法(kernel based approach)，有一些吸引人的性质(在某些情景下能得到收敛的结果等)，但不能很好的扩展到巨大的空间和数据集上。

Deep Neural Networks(DNN)

DNNs本质上是多个函数的组合。

Deep Neural Networks (DNN) Specification and Fitting

通常同时组合了线性和非线性变换
- 线性：hn=ωhn−1h_n = \omega h_{n-1}hn=ωhn−1
- 非线性：hn=f(hn−1)h_n = f(h_{n-1})hn=f(hn−1) 也被称作激活函数，比如：sigmoid、ReLU
为了拟合参数，需要一个loss函数(MSE，log likelihood等)

The benefit of Deep Neural Network Approximators

使用分布式表示而不是本地表示
通用型函数近似器
能仅需要指数级别少的节点/参数来表示同样一个函数
可以使用随机梯度下降来学习参数

Convolutional Neural Networks

Why Do We Care About CNNs

CNNs广泛应用于计算机视觉
如果你想根据像素点做决定，对视觉输入来说是非常有用的

Fully Connected Neural Net

Images Have Structure

图像有本地结构和关联
图像在空间和频率范围中有不同的特征

Convolutional NN

Locality of Information: Receptive Fields

(Filter) Stride

Shared Weights

Feature Map

第一个隐藏层的所有的神经元都检测确切相同的特征，只是在输入图像的不同位置做检测
特征：使得神经元产生一个特堵部分响应级别的某种输入模式(pattern)(e.g.,一个局部边)
为什么这说得通？
- 假定weights和bias(已经学习到的)是隐藏单元能选出一个感知域内的一条竖直边
- 这种能力在图像的其他位置也是有用的
- 对图像所有位置同样的特征检测器都是有用的产生变换(空间上的)不变形(尝试在图像的任何位置检测该特征)
- 受视觉系统启发而来

Convolutional Layer: Multiple Filters

Pooling Layers

Final Layer Typically Fully Connected

Deep Q Learning

Generalization

Deep Reinforcement Learning

使用深度神经网络来表示
- 价值函数
- 策略
- 模型
使用随机梯度下降(SGD)优化loss函数

Deep Q-Networks(DQNs)

使用带权重集w\textbf{w}w的Q-network来表示状态-动作价值函数 Q^(s,a;w)≈Q(s,a)\hat{Q}(s,a;\textbf{w})\approx Q(s,a)Q^(s,a;w)≈Q(s,a)

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2019-11-09 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

Generalization
Recall: Stochastic Gradient Descent
上一篇博客概述：Linear Value Function Approximation for Prediction With An Oracle
RL with Function Approximator
Deep Neural Networks(DNN)
- Deep Neural Networks (DNN) Specification and Fitting
- The benefit of Deep Neural Network Approximators
Convolutional Neural Networks
- Fully Connected Neural Net
- Images Have Structure
- Convolutional NN
- Locality of Information: Receptive Fields
- (Filter) Stride
- Shared Weights
- Feature Map
- Convolutional Layer: Multiple Filters
- Pooling Layers
- Final Layer Typically Fully Connected
Deep Q Learning
- Generalization
- Deep Reinforcement Learning
- Deep Q-Networks(DQNs)