【新智元导读】ICML2016今天进入课程讲座环节,DeepMind的资深科学家、AlphaGo作者之一的David Silver作了题为《深度增强学习》的报告。新智元带来本次报告的全部PPT。与前几日发表在DeepMind博客上的综述性文章不一样的是,本次David具体描述了DeepMind在深度增强学习运用的细节,他认为AI=增强学习+深度学习,详细介绍了基于价值、策略和模型的三种深度增强学习实现途径。
深度增强学习 David Silver Google DeepMind
大纲
增强学习概述
深度学习概述
深度增强学习:AI=增强学习+深度学习
我们希望找到一个简单的智能体,它能承担所有人类水平的任务。
DeepMind 深度增强学习的应用例子
深度学习
深度表示
一个深度表示由许多函数组成
其梯度可根据链规则反向传播
深度神经网络
一个深度神经网络一般由以下几个部分组成:
随机梯度递减训练的神经网络
权重分享
循环神经网络在time-steps间分享权重
卷积神经网络在定位区域内分享权重
增强学习
多面增强学习
智能体和环境
状态 :状态是试验的总结
增强学习智能体的主要组成部分
一个增强学习智能体可能包含一个或者多个组成部分:
策略
策略就是智能体的行为,是从状态到行到的路线图
评估函数
评估函数用于预测未来的回报
优化评估函数
优化评估函数指的是可获得的价值的最大化
通往增强学习的三个途径
基于评估的增强学习:
基于策略的增强学习:
基于模型的增强学习:
深度增强学习
使用深度神经网络来代表:
通过随机梯度递减优化损失函数深度增强学习
基于价值的深度增强学习
Q-networks
赋权后,用Q-network代表价值函数
最优化的Q-values应该遵循贝尔曼方程
深度Q-networks(DQN):经验回放
深度增强学习玩Atari
Atari游戏中DQN的表现
Nature 上介绍DQN后的改进
通用增强学习架构
异步增强学习
1、 经验回放中可代替的选择
2、 平行非相关数据
与通用增强学习相同的加速——在一台机器上。
基于策略的深度增强学习
深度策略网络
例子:调整策略参数U来获得更多的回报
策略递减
如何提升高价值的行动的可能性:
Actor-Critic算法
Actor-Critic的异步优势
迷宫中的深度增强学习
迷宫中的深度增强学习
……
连续行动中的深度增强学习
DPG是连续的DQN
DPG在模拟物理中的应用
A3C模拟物理Demo
虚拟自我回放(FSP)
深度增强学习能在多智能体的游戏中找到纳什均衡吗?
神经FSP玩德州扑克中
基于模型的深度增强学习
深度增强学习玩围棋
结论