前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CNNs and Deep Q Learning

CNNs and Deep Q Learning

作者头像
Steve Wang
发布2019-11-12 22:49:11
4550
发布2019-11-12 22:49:11
举报
文章被收录于专栏:从流域到海域从流域到海域

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。undefined本文链接:https://cloud.tencent.com/developer/article/1537748

前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL。这篇博文前半部分介绍DNN、CNN,熟悉这些的读者可以跳过,直接看后半部分的Deep Q Learning Part。

Generalization

为什么要使用网络来做近似。

  • 希望能使用强化学习来处理自动驾驶汽车,Atari,消费者市场,医疗,教育等等 这些领域一般都会有表格表示无法cover的高维输入特征(signals)或者说观察
  • 多数上述领域有巨大的状态(state)和/或动作(action)空间
  • 需要能在状态和/或动作之间泛化的Representation(模型的表示/状态-动作价值的表示/价值的表示/策略的表示)
  • 那我们就用一个参数化的函数代替表格来表示一个(状态-动作/状态)价值函数
Recall: Stochastic Gradient Descent
上一篇博客概述:Linear Value Function Approximation for Prediction With An Oracle

RL with Function Approximator

  • 线性价值函数器近似假定价值函数是一个一系列特征的加权组合,其中每一个特征是其状态的函数
  • 线性VFA通常在给定正确的特征集的条件下表示很好
  • 但是需要仔细地手动设计特征集
  • 一个替代方案是使用更丰富的函数近似簇,他们能够从状态(States)中直接获取而不需要显式的规定所有的特征。
  • 本地表示(local representation),其中包括基于核的方法(kernel based approach),有一些吸引人的性质(在某些情景下能得到收敛的结果等),但不能很好的扩展到巨大的空间和数据集上。

Deep Neural Networks(DNN)

DNNs本质上是多个函数的组合。

Deep Neural Networks (DNN) Specification and Fitting
  • 通常同时组合了线性和非线性变换
    • 线性:hn=ωhn−1h_n = \omega h_{n-1}hn​=ωhn−1​
    • 非线性:hn=f(hn−1)h_n = f(h_{n-1})hn​=f(hn−1​) 也被称作激活函数,比如:sigmoid、ReLU
  • 为了拟合参数,需要一个loss函数(MSE,log likelihood等)
The benefit of Deep Neural Network Approximators
  • 使用分布式表示而不是本地表示
  • 通用型函数近似器
  • 能仅需要指数级别少的节点/参数来表示同样一个函数
  • 可以使用随机梯度下降来学习参数

Convolutional Neural Networks

Why Do We Care About CNNs
  • CNNs广泛应用于计算机视觉
  • 如果你想根据像素点做决定,对视觉输入来说是非常有用的
Fully Connected Neural Net
Images Have Structure
  • 图像有本地结构和关联
  • 图像在空间和频率范围中有不同的特征
Convolutional NN
Locality of Information: Receptive Fields
(Filter) Stride
Shared Weights
Feature Map
  • 第一个隐藏层的所有的神经元都检测确切相同的特征,只是在输入图像的不同位置做检测
  • 特征:使得神经元产生一个特堵部分响应级别的某种输入模式(pattern)(e.g.,一个局部边)
  • 为什么这说得通?
    • 假定weights和bias(已经学习到的)是隐藏单元能选出一个感知域内的一条竖直边
    • 这种能力在图像的其他位置也是有用的
    • 对图像所有位置同样的特征检测器都是有用的 产生变换(空间上的)不变形(尝试在图像的任何位置检测该特征)
    • 受视觉系统启发而来
Convolutional Layer: Multiple Filters
Pooling Layers
Final Layer Typically Fully Connected

Deep Q Learning

Generalization

Deep Reinforcement Learning

  • 使用深度神经网络来表示
    • 价值函数
    • 策略
    • 模型
  • 使用随机梯度下降(SGD)优化loss函数

Deep Q-Networks(DQNs)

  • 使用带权重集w\textbf{w}w的Q-network来表示状态-动作价值函数 Q^(s,a;w)≈Q(s,a)\hat{Q}(s,a;\textbf{w})\approx Q(s,a)Q^​(s,a;w)≈Q(s,a)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-11-09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Generalization
  • Recall: Stochastic Gradient Descent
  • 上一篇博客概述:Linear Value Function Approximation for Prediction With An Oracle
  • RL with Function Approximator
  • Deep Neural Networks(DNN)
    • Deep Neural Networks (DNN) Specification and Fitting
      • The benefit of Deep Neural Network Approximators
      • Convolutional Neural Networks
        • Fully Connected Neural Net
          • Images Have Structure
            • Convolutional NN
              • Locality of Information: Receptive Fields
                • (Filter) Stride
                  • Shared Weights
                    • Feature Map
                      • Convolutional Layer: Multiple Filters
                        • Pooling Layers
                          • Final Layer Typically Fully Connected
                          • Deep Q Learning
                            • Generalization
                              • Deep Reinforcement Learning
                                • Deep Q-Networks(DQNs)
                                领券
                                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档