深度学习与强化学习

深度学习与强化学习

随着 DeepMind 公司的崛起,深度学习和强化学习已经成为了人工智能领域的热门研究方向。除了众所周知的 AlphaGo 之外,DeepMind 之前已经使用深度学习与强化学习的算法构造了能够自动玩 Atari 游戏的 AI,并且在即时战略游戏 StarCraft II 的游戏 AI 构建上做出了自己的贡献。虽然目前还没有成功地使用 AI 来战胜 StarCraft II 的顶尖职业玩家,但是 AI 却能够带给大家无穷的想象力和期待。

本篇 PPT 将会从强化学习的一些简单概念开始,逐步介绍值函数与动作值函数,以及 Q-Learning 算法。然后介绍深度学习中卷积神经网络的大致结构框架。最后将会介绍卷积神经网络是如何和强化学习有效地结合在一起,来实现一些简单的游戏 AI。

之前也写过一份PPT《当强化学习遇见泛函分析》,两份 PPT 有一些重复的地方,读者选择一些看即可。之前文章从强化学习的定义出发,一步一步地给读者介绍强化学习的简单概念和基本性质,并且会介绍经典的 Q-Learning 算法。文章的最后一节会介绍泛函分析的一些基本概念,并且使用泛函分析的经典定理 Banach Fixed Point Theorem 来证明强化学习中 Value Iteration 等算法的收敛性。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 学习一帧,为整段黑白视频上色:谷歌提出自监督视觉追踪模型

在谷歌最近提交的论文《Tracking Emerges by Colorizing Videos》中,研究人员引入了一种为灰度视频着色的卷积神经网络,但它只需要...

883
来自专栏人工智能头条

如何让C罗在FIFA中的人脸更逼真?这个深度学习算法或将改变整个游戏产业!

1634
来自专栏AI科技大本营的专栏

关于那些羞羞的不可描述的动作分析,一个正经的机器学习项目

现在,机器学习已经应用在各行各业中,开发工程师队伍越发壮大,其中有一类工程师的工作内容在外行人眼里似乎更”丰富多彩“,那就是鉴黄师。现在我们看到的视频都是经过他...

631
来自专栏数据科学与人工智能

【数据科学】数据科学书上很少提及的三点经验

这是数据科学大行其道的时代。各类课程、博客、培训学校如雨后春笋般出现。然而,每次我浏览这些学习资料时,我发现它们过于强调一些具体的算法。理解逻辑回归或者深度学习...

2076
来自专栏机器之心

观点 | 深度学习的偏见、局限性及其未来

选自HYPERPARAMETER SPACE 机器之心编译 参与:黄小天 近日,加州大学圣克鲁兹分校(UCSC)斯图尔特实验室博士后 Pablo Cordero...

3227
来自专栏腾讯大数据的专栏

腾讯数平精准推荐 | OCR技术之识别篇

本文介绍了腾讯数平精准推荐团队的OCR识别算法,包括识别算法的演进之路以及4个代表性方法。

5.9K11
来自专栏数据派THU

独家|一文解读合成数据在机器学习技术下的表现

本文将通过介绍两个分布模型,并运用它们到合成数据过程中,来分析合成数据在不同机器学习技术下的表现。

664
来自专栏人工智能头条

AutoML 详解及其在推荐系统中的应用、优缺点

可能有人还记得一个非常古典的、关于推荐系统的例子:超市把尿布和啤酒摆一起,显著的增加了二者的销量。原因是很多买酒的父亲们看到旁边刚好有尿布,就回想起临行前,孩儿...

621
来自专栏量子位

深度学习中,还有这15个未解难题

王小新 编译自 Bharath Ramsunder博客 量子位 出品 | 公众号 QbitAI 认脸、翻译、合成语音……深度学习在很多问题上都取得了非常好的成绩...

2847
来自专栏IT派

机器学习实用指南

初识机器学习 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习...

3555

扫码关注云+社区