当强化学习遇见泛函分析

随着 DeepMind 公司的崛起,深度学习和强化学习已经成为了人工智能领域的热门研究方向。除了众所周知的 AlphaGo 之外,DeepMind 已经与著名的游戏公司 Blizzard 合作,准备挑战热门的即时战略游戏 StarCraft II。之前 DeepMind 已经成功地使用 Deep Learning 和 Reinforcement Learning 来搭建能够自行玩游戏的人工智能,并且成功挑战了 Atari 的一些游戏。虽然目前还没有成功地使用 AI 来战胜 StarCraft II 的顶尖职业玩家,但是 AI 却能够带给大家无穷的想象力和期待。

那么强化学习到底是什么呢?其实,强化学习其实是一个交叉学科的产物,本质上是为了学会自动进行决策,也就是“Decision Making”的问题。在计算机领域就体现为机器学习算法,在经济学领域就体现为博弈论的研究,在神经学领域体现在理解人类大脑如何做出决策。这一类问题本质上都是一个问题,人为什么能够并且如何做出最优决策。强化学习是一个序列的决策问题,需要选择一系列连续的行为,在这些行为结束之后能够获得最大的收益。一开始并没有任何标签告诉算法应该怎么做,是通过这个持续动作的行为来调整之前的结果。通过不断地持续调整,强化学习算法就能够学习到在什么样的情况下选择什么样的行为可以获得最好的结果。

与机器学习相比,泛函分析已经是数学史上一门传统而经典的学科。泛函分析是分析学的一个分支,其研究的主要对象就是由函数构成的函数空间。它是从变分问题,积分问题,理论物理的研究过程中逐步发展起来的。那么泛函分析是怎么和机器学习中的强化学习结合到一起的呢?本篇文章将会从强化学习的定义出发,一步一步地给读者介绍强化学习的简单概念和基本性质,并且会介绍经典的 Q-Learning 算法。文章的最后一节会介绍泛函分析的一些基本概念,并且使用泛函分析的经典定理 Banach Fixed-Point Theorem 来证明强化学习中 Value Iteration 等算法的收敛性。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Vamei实验室

统计01:概述

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁转载。 

692
来自专栏新智元

【面经】国内大互联网公司机器学习/深度学习面试题

【新智元导读】本文作者最近就机器学习/深度学习的岗位面试了一圈大的互联网公司,而且基本上投的公司都给了offer。作者分享了他的面经,希望对nlp或者机器学习/...

7825
来自专栏Vamei实验室

统计01:概述

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁转载。 

1912
来自专栏机器人网

推荐AI书单|大牛私藏的机器学习书

在机器学习上,首先要推荐的是两部国内作者的著作:李航博士所著的《统计学习方法》和周志华教授的《机器学习》。 《统计学习方法》采用“总 - 分 - 总”的结构,在...

3535
来自专栏牛客网

顺丰提前批人工智能岗技术面面经

【每日一语】人们常常会欺骗你,是为了让你明白,有时候,你唯一应该相信的人就是你自己。——《千与千寻》人们常常会欺骗你,是为了让你明白,有时候,你唯一应该相信的人...

681
来自专栏奇点大数据

前沿 | 如何让超越人类的AI不构成威胁?OpenAI给出的答案是:目标一致性

我们可以将辩论的方式可视化为一个游戏树。它同围棋等游戏类似,但是这里的叶节点由辩论者之间论点和人类判决的句子构成。不论是在辩论还是在围棋中,真正的答案取决于整个...

954
来自专栏大数据挖掘DT机器学习

如何利用市场细分方法构建更好的预测模型?

作者:Sandhya Kuruganti 和Hindol Basu 原文:Guide to Build Better Predictive Models us...

3497
来自专栏钱塘大数据

【图说】一张思维导图,带你了解数据分析挖掘体系

数据分析挖掘体系可分为数据预处理、分析挖掘、数据探索、数据展现和分析工具。 ▌数据预处理 •数据预处理包含数据清洗、数据集成、数据变换和数据规约几种方法。 •...

3767
来自专栏专知

【专知特邀】KDD2018 | 浙江大学和帝国理工大学最新工作(附代码和数据集)

【导读】专知内容小组特邀KDD2018交通速度预测工作第一作者为大家分享最新工作。交通速度预测容易受到各种因素的影响且缺少一个大型的包含各种信息的公开数据集。最...

1617
来自专栏机器之心

深度学习在NLP领域成绩斐然,计算语言学家该不该惊慌?

选自Nautil 作者:Christopher D. Manning 机器之心编译 机器翻译、聊天机器人等自然语言处理应用正随着深度学习技术的进展而得到更广...

36712

扫码关注云+社区