深度学习与强化学习

深度学习与强化学习

随着 DeepMind 公司的崛起,深度学习和强化学习已经成为了人工智能领域的热门研究方向。除了众所周知的 AlphaGo 之外,DeepMind 之前已经使用深度学习与强化学习的算法构造了能够自动玩 Atari 游戏的 AI,并且在即时战略游戏 StarCraft II 的游戏 AI 构建上做出了自己的贡献。虽然目前还没有成功地使用 AI 来战胜 StarCraft II 的顶尖职业玩家,但是 AI 却能够带给大家无穷的想象力和期待。

本篇 PPT 将会从强化学习的一些简单概念开始,逐步介绍值函数与动作值函数,以及 Q-Learning 算法。然后介绍深度学习中卷积神经网络的大致结构框架。最后将会介绍卷积神经网络是如何和强化学习有效地结合在一起,来实现一些简单的游戏 AI。

之前也写过一份PPT《当强化学习遇见泛函分析》,两份 PPT 有一些重复的地方,读者选择一些看即可。之前文章从强化学习的定义出发,一步一步地给读者介绍强化学习的简单概念和基本性质,并且会介绍经典的 Q-Learning 算法。文章的最后一节会介绍泛函分析的一些基本概念,并且使用泛函分析的经典定理 Banach Fixed Point Theorem 来证明强化学习中 Value Iteration 等算法的收敛性。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

AI开学第一课!CMU深度学习秋季课程开课了,PPT & 视频同步

以深度神经网络为代表的“深度学习”系统越来越多地在各种AI任务中大显神威,包括语言理解、语音和图像识别、机器翻译、规划、甚至游戏和自动驾驶。因此,掌握深度学习方...

1691
来自专栏新智元

【一文读懂Bengio研究组最新论文】图谱注意力网络GAT,以图谱做输入做深度学习

作者:邓侃 编辑:闻菲 【新智元导读】Yoshua Bengio 团队日前提出了一种名叫图谱注意力网络(Graph Attention Network,GAT)...

5527
来自专栏小小挖掘机

推荐系统遇上深度学习(二十)--贝叶斯个性化排序(BPR)算法原理及实战

排序推荐算法大体上可以分为三类,第一类排序算法类别是点对方法(Pointwise Approach),这类算法将排序问题被转化为分类、回归之类的问题,并使用现有...

1232
来自专栏机器之心

入门 | 我们常听说的置信区间与置信度到底是什么?

选自TowardsDataScienceR 作者:Dima Shulga 机器之心编译 参与:程耀彤、思源 机器学习本质上是对条件概率或概率分布的估计,而这样的...

3275
来自专栏专知

逻辑回归和深度神经网络:哪个更适合你?

【导读】简单的逻辑回归于复杂的深度神经网络都广泛应用于各种分类场景,但是针对不同的任务到底哪种模型更适合呢?本文从参数量和特定数据的使用两方面来阐述两种模型的区...

3509
来自专栏新智元

【Manning主讲】斯坦福CS224n深度学习与NLP课程全部视频、PPT

【新智元导读】斯坦福大学CS224n(全称:深度学习与自然语言处理)是自然语言处理领域很受欢迎的课程,由 Chris Manning 和 Richard Soc...

4485
来自专栏智能算法

模拟退火优化算法

一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近...

2697
来自专栏AI科技评论

业界 | 谷歌研究院在化学发力:应用机器学习技术预测分子性质

最近,机器学习在化学领域的应用有很大进展,特别是化学搜索问题,从药物筛选、电池设计到OLEDs设计,催化剂的发现。 历史上化学家使用薛定谔方程做数值近似来解决化...

3819
来自专栏书山有路勤为径

机器人世界

与人类一样,机器人通过它的“感官”来感知世界。例如,无人驾驶汽车使用视频、雷达与激光雷达来观察周围的世界。随着汽车不断地收集数据,它们会建立起一个3D观察世界,...

894
来自专栏专知

基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享03(附pdf下载)

【导读】专知于11月24日推出胡老师的基于信息理论的机器学习报告系列教程,大家反响热烈,胡老师PPT内容非常翔实精彩,是学习机器学习信息理论不可多得的好教程,今...

3407

扫码关注云+社区