首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >102页PPT,DeepMind强化学习最新进展,含图文、公式和代码

102页PPT,DeepMind强化学习最新进展,含图文、公式和代码

作者头像
数据派THU
发布2019-11-28 17:35:13
1.2K0
发布2019-11-28 17:35:13
举报
文章被收录于专栏:数据派THU数据派THU数据派THU

来源:专知

本文多图,建议阅读9分钟

本文提供涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法的资源。

[ 导读 ]在DeepMing任职的Nando de Freitas(原牛津大学教授)在KHIPU 2019上做了关于强化学习(RL)的教程,102页ppt。涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法,并介绍了RL的应用。

在KHIPU 2019(Latin American Meeting In Artificial Intelligence)上,在DeepMing任职的Nando de Freitas做了教程《Reinforcement Learning》,用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。

Nando de Freitas 简介

Nando出生在津巴布韦,曾是莫坎比克战争的难民,患有疟疾。他的父母借钱给他买一本护照,让他能够生活在葡萄牙马德拉的一个火山岩小屋,没有水和电,父母忙着偿还债务也不在身边,这种情况一直持续到欧盟到达那里。

他在威特沃特斯兰德大学(University of the Witwatersrand)获得了电气工程理学学士学位和控制理学硕士学位,后获得剑桥大学三一学院(Trinity College, Cambridge University)神经网络贝叶斯方法博士学位,这要归功于慈善人士提供的奖学金。

他在加州大学伯克利分校(UC Berkeley)获得了人工智能的博士后学位,并于2001年成为加拿大不列颠哥伦比亚大学(University of British Columbia)的教授,随后在2013年成为英国牛津大学(University of Oxford)的教授。2017年,他以首席科学家的身份加入了DeepMind的全职工作,帮助解决智能问题的愿景,让未来几代人能够过上更好的生活。Nando也是加拿大高级研究所的高级研究员,并获得了一些学术奖项。

主页介绍:

https://khipu.ai/03_nando_de_freitas/

《Reinforcement Learning》教程的内容

  • 强化学习概念
  • 策略梯度
  • 动态规划
  • 深度Q网络
  • 分布式强化学习
  • D4PG(Distributed Distributional Deep Deterministic Policy Gradients)
  • PPO(Proximal Policy Optimization)和MPO(Maximum aposteriori Policy Optimisation)
  • R2D3(Recurrent Replay Distributed DQN from Demonstrations)
  • 强化学习应用:
    • AlphaX
    • Batch强化学习

教程部分截图如下所示:

参考链接:

https://khipu.ai/program/

https://khipu.ai/03_nando_de_freitas/

https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing

编辑:黄继彦

校对:王欣

Reinforcement Learning — Khipu 2019.pdf

链接: https://pan.baidu.com/s/1kFngdDcW7llIbYH9o7SE7g 提取码: f4g7

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档