前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你该掌握的AI技能:强化学习01

你该掌握的AI技能:强化学习01

作者头像
企鹅号小编
发布2018-02-02 16:23:17
5460
发布2018-02-02 16:23:17
举报
文章被收录于专栏:人工智能人工智能人工智能

题图由人工智能设计师完成

最近在看一些强化学习的书籍,学习的过程就是要不断的输入,查找资料,理解各种资料,然后输出,总结学习心得,再次输入,输出。不断的重复输入输出这一过程,直至灵活运用学来的知识转化为技能,这个过程很像强化学习的过程。

今天开始更新一个新系列:

《你该掌握的AI技能》

先看一个游戏:Flappy Bird

操作简单,通过点击手机屏幕使Bird上升,穿过柱状障碍物之后得分,碰到则游戏结束。由于障碍物高低不等,控制Bird上升和下降需要反应快并且灵活,要得到较高的分数并不容易。

这款游戏,大家应该都玩过吧,不知最高记录是多少?

有没有想过AI(人工智能)玩游戏能玩到多少分呢?

历史渊源,是起于2013DeepMindNIPS上发表Playing Atari with Deep Reinforcement Learning一文,提出了DQNDeep Q Network)算法,实现端到端学习玩Atari游戏,即只有像素输入,看着屏幕玩游戏。后来Deep Mind凭借这个应用以6亿美元被Google收购。

近期DeepMind又有新作,AlphaGo Zero,摆脱了对人类标注样本(人类历史棋局)的依赖,实现无师自通,没有再利用人类历史棋局,训练过程从完全随机开始。采用类似DQN的一个DNN网络实现决策过程,并利用这个DNN得到两种输出policyvalue,然后利用一个蒙特卡罗搜索树完成当前步骤选择。

其中,核心技术就采用了

强化学习reinforcement learning。

本文作为强化学习的开篇,重点介绍:

原理及基本概念

一个完整的强化学习过程,是让一台什么都不懂的计算机完成某一项任务,通过不断地尝试,从错误中学习,最后找到完成这项任务的规律,学会了完成任务的方法

比如小孩子学走路的过程,家里的宠物狗学习各种动作的过程,还有著名的Alpha GO如何习得下围棋技能的过程。

强化学习是从动物学习、参数扰动自适应控制等理论发展而来。有些人认为,强化学习是实现强人工智能的真正希望。

上图是强化学习的基本理念及原理图。

由以下概念构成:

Environment

Agent

Actions

Observation

Reward

State:状态

来描述Environment及Agent。

State:Environment--Agent

Policy:策略

规定了在每个可能的状态State下,Agent应该采取的Actions集合。

强化学习就是要找到一个Policy,以使得Reward最大。

Policy:Reward--State--Actions

用一个例子——打砖块游戏,来解释下强化学习:

Environment处于一个特定的状态(State)(如打砖块游戏中挡板的位置、各个砖块的状态等),Agent通过执行特定的动作(Actions)(如向左、向右移动挡板)来改变Environment的状态,Environment状态改变之后会返回一个观察(Observation)给Agent,同时还会得到一个奖励(Reward)(正代表奖励,可以为负,就是惩罚),这样Agent根据返回的信息采取新的动作,如此不断重复。

直至找寻到一个策略(Policy),告诉Agent如何选择动作(Actions),来最大化Reward。

强化学习的目的,就是在这个不断重复的过程中,学习到某一种最优的policy。

另一个现实中的例子来理解强化学习:

“小孩子走路问题”,其中孩子是一个试图通过采取Actions(走路)来操纵Environment(在地上走路)的Agent,她试图从一个State(即,她走的每一步)转移到另一个State。当她完成任务的一个子模块(即,孩子走了几步)时,孩子会获得奖励Reward(比如,一些糖果),但是当她不会走路时,她不会收到任何糖果(相当于惩罚)。Agent不断地练习,直至学会走路的方法Policy为止。

以上为强化学习的入门需掌握的基本原理及概念,跟着我们一步步掌握这一技能吧!

本文来自企鹅号 - 设计Mix科技实验室O自在园媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 设计Mix科技实验室O自在园媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档