前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepMind创始人ICML2016讲座:深度增强学习

DeepMind创始人ICML2016讲座:深度增强学习

作者头像
新智元
发布2018-03-22 17:12:07
5540
发布2018-03-22 17:12:07
举报
文章被收录于专栏:新智元新智元

【新智元导读】ICML2016今天进入课程讲座环节,DeepMind的资深科学家、AlphaGo作者之一的David Silver作了题为《深度增强学习》的报告。新智元带来本次报告的全部PPT。与前几日发表在DeepMind博客上的综述性文章不一样的是,本次David具体描述了DeepMind在深度增强学习运用的细节,他认为AI=增强学习+深度学习,详细介绍了基于价值、策略和模型的三种深度增强学习实现途径。

深度增强学习 David Silver Google DeepMind

大纲

  • 深度学习介绍
  • 增强学习介绍
  • 基于价值的深度增强学习
  • 基于策略的深度增强学习
  • 基于模型的深度增强学习

增强学习概述

  • 增强学习是一种用于决策的通用框架
  • 增强学习指的是具有行动能力的智能体
  • 每一步行动都会影响智能体的未来状态
  • 成功由标量的回报信号来衡量
  • 目标:选择行动,实现未来回报的最大化

深度学习概述

  • 深度学习是一种表示(representation)学习通用框架
  • 给定对象
  • 学习为了实现获取目标所必需的表示
  • 直接从原始输入中获取
  • 使用最小化的域知识

深度增强学习:AI=增强学习+深度学习

我们希望找到一个简单的智能体,它能承担所有人类水平的任务。

  • RL 定义目标
  • DL 提供机制
  • RL+DL=通用智能

DeepMind 深度增强学习的应用例子

  • 玩游戏:Atari,Poker,GO,…
  • 导航:3D世界,迷宫,…
  • 控制物理系统:操作、行走、游泳,…
  • 与用户的交互:推荐、优化、个性化,…

深度学习

深度表示

一个深度表示由许多函数组成

其梯度可根据链规则反向传播

深度神经网络

一个深度神经网络一般由以下几个部分组成:

  • 线性变换
  • 非线性激活函数
  • 输出时的一个损失函数

随机梯度递减训练的神经网络

权重分享

循环神经网络在time-steps间分享权重

卷积神经网络在定位区域内分享权重

增强学习

多面增强学习

智能体和环境

状态 :状态是试验的总结

增强学习智能体的主要组成部分

一个增强学习智能体可能包含一个或者多个组成部分:

  • 策略:智能体的行为函数
  • 评估函数:每一个状态或者行动的好坏
  • 模型:智能体在环境中的表示

策略

策略就是智能体的行为,是从状态到行到的路线图

评估函数

评估函数用于预测未来的回报

优化评估函数

优化评估函数指的是可获得的价值的最大化

  • 模型从试验中进行学习
  • 作为环境的代理
  • Planner与模型互动 例子:使用预测搜索

通往增强学习的三个途径

基于评估的增强学习:

  • 评估价值函数的最优化
  • 在所有策略下,可获得的最大化价值

基于策略的增强学习:

  • 直接从优化策略中进行搜索
  • 未来回报中可获得的最大化策略

基于模型的增强学习:

  • 建立环境模型
  • 使用模型计划,例如,预测

深度增强学习

使用深度神经网络来代表:

  • 价值函数
  • 策略
  • 模型

通过随机梯度递减优化损失函数深度增强学习

基于价值的深度增强学习

Q-networks

赋权后,用Q-network代表价值函数

最优化的Q-values应该遵循贝尔曼方程

深度Q-networks(DQN):经验回放

深度增强学习玩Atari

  • Q(s,a)中,从像素展开的端对端学习
  • 输入中的s是最新的四个框架中的一堆原始像素
  • 输出中的Q(s,a)是控制杆或者按钮的18个位置
  • 这些步骤中得分的改变会影响回报

Atari游戏中DQN的表现

Nature 上介绍DQN后的改进

通用增强学习架构

异步增强学习

  • 利用标准CPU的多线程
  • 同时执行多种情况下的智能体任务
  • 在不同线程间分享网络参数
  • 平行非关联数据

1、 经验回放中可代替的选择

2、 平行非相关数据

与通用增强学习相同的加速——在一台机器上。

基于策略的深度增强学习

深度策略网络

  • 用赋权的深度网络来表示策略
  • 定义目标函数,作为一种整体的折扣回报
  • 用SGD端对端的优化目标

例子:调整策略参数U来获得更多的回报

策略递减

如何提升高价值的行动的可能性:

Actor-Critic算法

  • Actor-Critic的异步优势
  • 评估函数的最新价值
  • n-step 样本评估Q-value

Actor-Critic的异步优势

迷宫中的深度增强学习

迷宫中的深度增强学习

  • 从像素中进行Softmax策略端对端学习
  • 观察值Ot 是当下框架中的原始像素
  • 状态St =f(01,…,Ot)是循环神经网络(LSTM)

……

连续行动中的深度增强学习

DPG是连续的DQN

DPG在模拟物理中的应用

A3C模拟物理Demo

  • 异步增强学习在经验回放中是可替换的
  • 训练一个分层的、循环的移动控制器
  • 在更艰巨的任务中训练控制器

虚拟自我回放(FSP)

深度增强学习能在多智能体的游戏中找到纳什均衡吗?

神经FSP玩德州扑克中

基于模型的深度增强学习

  • 学习环境模型
  • Demo:Atari的生成模型
  • 组合错误带来的执行挑战

深度增强学习玩围棋

结论

  • 通用的、稳定的和可伸缩的增强学习现在是可能的
  • 使用深度网络来表示价值、策略和模型
  • 在Atari,迷宫、物体移动、扑克和围棋中都成功了
  • 使用多种深度增强学习范式
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档