专栏首页数学人生深度学习与强化学习
原创

深度学习与强化学习

深度学习与强化学习

随着 DeepMind 公司的崛起,深度学习和强化学习已经成为了人工智能领域的热门研究方向。除了众所周知的 AlphaGo 之外,DeepMind 之前已经使用深度学习与强化学习的算法构造了能够自动玩 Atari 游戏的 AI,并且在即时战略游戏 StarCraft II 的游戏 AI 构建上做出了自己的贡献。虽然目前还没有成功地使用 AI 来战胜 StarCraft II 的顶尖职业玩家,但是 AI 却能够带给大家无穷的想象力和期待。

本篇 PPT 将会从强化学习的一些简单概念开始,逐步介绍值函数与动作值函数,以及 Q-Learning 算法。然后介绍深度学习中卷积神经网络的大致结构框架。最后将会介绍卷积神经网络是如何和强化学习有效地结合在一起,来实现一些简单的游戏 AI。

之前也写过一份PPT《当强化学习遇见泛函分析》,两份 PPT 有一些重复的地方,读者选择一些看即可。之前文章从强化学习的定义出发,一步一步地给读者介绍强化学习的简单概念和基本性质,并且会介绍经典的 Q-Learning 算法。文章的最后一节会介绍泛函分析的一些基本概念,并且使用泛函分析的经典定理 Banach Fixed Point Theorem 来证明强化学习中 Value Iteration 等算法的收敛性。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 用强化学习玩文本游戏

    随着 DeepMind 成功地使用卷积神经网络(CNN)和强化学习来玩 Atari 游戏,AlphaGo 击败围棋职业选手李世石,强化学习已经成为了机器学习的一...

    张戎
  • 当强化学习遇见泛函分析

    随着 DeepMind 公司的崛起,深度学习和强化学习已经成为了人工智能领域的热门研究方向。除了众所周知的 AlphaGo 之外,DeepMind 已经与著名的...

    张戎
  • 循环神经网络(Recurrent Neural Networks)简介

    在介绍 RNN 的诸多文章中,通常都是介绍 RNN 的使用方法和实战效果,很少有文章会介绍关于该神经网络的训练过程。本文将会使用传统的后向传播算法来训练 RNN...

    张戎
  • HTML图片标签学习

    葆宁
  • android加载大图,防止oom

    高效加载大图片 我们在编写Android程序的时候经常要用到许多图片,不同图片总是会有不同的形状、不同的大小,但在大多数情况下,这些图片都会大于我们程序所需要...

    xiangzhihong
  • 2017第三季度移动行业数据报告

    在如今移动设备规模增速明显放缓,移动设备趋于饱和的情况下,移动互联网人口红利基本结束,逐渐演变成对存量设备的争夺。

    旺仔小小鹿
  • Android高效加载大图、多图解决方案,有效避免程序OOM

    高效加载大图片 我们在编写Android程序的时候经常要用到许多图片,不同图片总是会有不同的形状、不同的大小,但在大多数情况下,这些图片都会大于我们程序所需要的...

    用户1158055
  • CVE-2017-11882及利用样本分析

    1.本文由复眼小组ERFZE师傅原创 2.本文略微偏向基础,首先介绍了该漏洞的成因,并且分析了该漏洞在蔓灵花,摩诃草,响尾蛇APT组织用于实际攻击活动中的详细调...

    Gcow安全团队
  • 吴恩达深度学习笔记 course4 week 4 特殊应用:人脸识别与神经风格转换

    output:如果图片是对应的K人中的一人,则输出此人ID,否则验证不通过    ,人脸识别比人脸验证更难一些,如果一个人脸验证系统的正确率为99%,即错误率为...

    Dar_Alpha
  • 相似图片搜索的原理

    你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。

    bear_fish

扫码关注云+社区

领取腾讯云代金券