CNNs and Deep Q Learning

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/Solo95/article/details/102987237

前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL。这篇博文前半部分介绍DNN、CNN,熟悉这些的读者可以跳过,直接看后半部分的Deep Q Learning Part。

Generalization

为什么要使用网络来做近似。

  • 希望能使用强化学习来处理自动驾驶汽车,Atari,消费者市场,医疗,教育等等 这些领域一般都会有表格表示无法cover的高维输入特征(signals)或者说观察
  • 多数上述领域有巨大的状态(state)和/或动作(action)空间
  • 需要能在状态和/或动作之间泛化的Representation(模型的表示/状态-动作价值的表示/价值的表示/策略的表示)
  • 那我们就用一个参数化的函数代替表格来表示一个(状态-动作/状态)价值函数

Recall: Stochastic Gradient Descent

上一篇博客概述:Linear Value Function Approximation for Prediction With An Oracle

RL with Function Approximator

  • 线性价值函数器近似假定价值函数是一个一系列特征的加权组合,其中每一个特征是其状态的函数
  • 线性VFA通常在给定正确的特征集的条件下表示很好
  • 但是需要仔细地手动设计特征集
  • 一个替代方案是使用更丰富的函数近似簇,他们能够从状态(States)中直接获取而不需要显式的规定所有的特征。
  • 本地表示(local representation),其中包括基于核的方法(kernel based approach),有一些吸引人的性质(在某些情景下能得到收敛的结果等),但不能很好的扩展到巨大的空间和数据集上。

Deep Neural Networks(DNN)

DNNs本质上是多个函数的组合。

Deep Neural Networks (DNN) Specification and Fitting

  • 通常同时组合了线性和非线性变换
    • 线性:hn=ωhn−1h_n = \omega h_{n-1}hn​=ωhn−1​
    • 非线性:hn=f(hn−1)h_n = f(h_{n-1})hn​=f(hn−1​) 也被称作激活函数,比如:sigmoid、ReLU
  • 为了拟合参数,需要一个loss函数(MSE,log likelihood等)

The benefit of Deep Neural Network Approximators

  • 使用分布式表示而不是本地表示
  • 通用型函数近似器
  • 能仅需要指数级别少的节点/参数来表示同样一个函数
  • 可以使用随机梯度下降来学习参数

Convolutional Neural Networks

Why Do We Care About CNNs
  • CNNs广泛应用于计算机视觉
  • 如果你想根据像素点做决定,对视觉输入来说是非常有用的

Fully Connected Neural Net

Images Have Structure

  • 图像有本地结构和关联
  • 图像在空间和频率范围中有不同的特征

Convolutional NN

Locality of Information: Receptive Fields

(Filter) Stride

Shared Weights

Feature Map

  • 第一个隐藏层的所有的神经元都检测确切相同的特征,只是在输入图像的不同位置做检测
  • 特征:使得神经元产生一个特堵部分响应级别的某种输入模式(pattern)(e.g.,一个局部边)
  • 为什么这说得通?
    • 假定weights和bias(已经学习到的)是隐藏单元能选出一个感知域内的一条竖直边
    • 这种能力在图像的其他位置也是有用的
    • 对图像所有位置同样的特征检测器都是有用的 产生变换(空间上的)不变形(尝试在图像的任何位置检测该特征)
    • 受视觉系统启发而来

Convolutional Layer: Multiple Filters

Pooling Layers

Final Layer Typically Fully Connected

Deep Q Learning

Generalization

Deep Reinforcement Learning

  • 使用深度神经网络来表示
    • 价值函数
    • 策略
    • 模型
  • 使用随机梯度下降(SGD)优化loss函数

Deep Q-Networks(DQNs)

  • 使用带权重集w\textbf{w}w的Q-network来表示状态-动作价值函数 Q^(s,a;w)≈Q(s,a)\hat{Q}(s,a;\textbf{w})\approx Q(s,a)Q^​(s,a;w)≈Q(s,a)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

3D机器人视觉在仓储物流和工业自动化领域的应用 | AI ProCon 2019

随着深度学习和机器学习的发展,机器人已经走出实验室,越来越多地地应用于各行各业,其中,仓储物流和工业化领域就有许多适合机器人作业的场景环境。

11310
来自专栏AI科技大本营的专栏

实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选

目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单。而百度在PaddlePaddle上的 Deepspeech2 实现功能却很强大,...

36410
来自专栏机器学习AI算法工程

网站流量预测任务第一名解决方案:从GRU模型到代码详解时序预测

预测有两个主要的信息源: 局部特征。我们看到一个趋势时,希望它会继续(自回归模型)朝这个趋势发展;看到流量峰值时,知道它将逐渐衰减(滑动平均模型);看到...

11220
来自专栏深度学习和计算机视觉

干货 | 循环神经网络LSTM的数学过程

长短时记忆(long short term memory,LSTM)是一种有效的链式循环神经网络(recurrent neural network,R2 NN1...

9120
来自专栏腾讯技术工程官方号的专栏

机器学习模型可解释性的详尽介绍

? 模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优...

22620
来自专栏让自己透明,用于自己看的内容

Scaling data to the standard normal缩放数据到标准正态形式

A preprocessing step that is almost recommended is to scale columns to the stand...

8200
来自专栏中科院渣渣博肆僧一枚

ShapeShifter: Robust Physical Adversarial Attack on Faster R-CNN Object Detector

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

7840
来自专栏AI科技大本营的专栏

C#也能做机器学习?基于.NET的AI智能应用市场还是一片“处女地”

SciSharp 是怎样的一个社区?它是如何构建一个基于 .NET 的机器学习生态?它在做的事情对开发者来说有何意义?本次,AI 科技大本营与 SciSharp...

5610
来自专栏AI科技大本营的专栏

实战:基于OpenPose的卡通人物可视化 | CSDN博文精选

去年打算用些现成的Pose做些展示,因为以前有在OpenPose做些识别等开发工作,所以这次我就简单在OpenPose上把骨架用动画填充上去,关于能够和人动作联...

13930
来自专栏中科院渣渣博肆僧一枚

生成对抗网络

生成式对抗网络(generative adversarial network,GAN)是基于可微生成器网络的另一种生成式建模方法。生成式对抗网络基于博弈论场景,...

7610

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励