强化学习（Reinforcement Learning）Python 教学

首页课程强化学习（Reinforcement Learning）Python 教学

登录后再学习，可使用学习中心、个人中心等更完善的课程服务。立即登录>

强化学习（Reinforcement Learning）Python 教学

21 课时
3.2K 学过
8 分

课程概述

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益，主要应用于游戏、机器人、金融等领域。

本课程首先介绍了什么是强化学习，并展示了使用强化学习可以实现的效果；然后结合具体案例分别展示了Q Learning、Sarsa、将Q Learining优势与神经网络结合的DQN、Policy Gradients等算法的原理和实现，一般包含算法更新和思维决策两个环节；最后，

扩展讲解了Actor Critic、DDPG、A3C、PPO/DPPO等强化学习算法。

【课程目标】

了解强化学习

掌握Q Learing、Sarsa、DQN、Policy Gradients等算法的原理

【适用对象】

AI开发者、学生、机器学习研究人员，机器学习以及强化学习的相关人群

【课程大纲】

什么是强化学习Reinforcement Learning：强化学习Reinforcement Learning介绍
Q Learning算法概述：要求准备、简单例子、Q Learning算法更新、Q Learning思维决策
Sarsa算法概述：Sarsa算法更新、思维决策
DQN算法：DQN算法更新、DQN神经网络、DQN思维决策、OpenAI Gym using Tensorflow、Double DQN using Tensorflow、DQN with Prioritised Replay using Tensorflow、Dueling DQN using Tensorflow
其他算法：Actor Critic 演员评论家、DDPG (Deep Deterministic Policy Gradient)、A3C (Asynchronous Advantage Actor-Critic)、PPO/DPPO Proximal Policy Optimization

机构简介

腾讯产业互联网学堂

腾讯云旗下面向云生态用户的一站式学习成长平台

讲师简介

周沫凡
毕业于澳洲格里菲斯大学工程系。乐于分享深度学习的技能。在自然语言处理，强化学习方面有丰富的学术和行业经验。在腾讯云主要负责智能对话系统的研发。

基础课程

进阶课程

热门课程

课程评价(0)

感谢你参加本课程，请你作出评价：

0/300

发表评价

以下选自学员评价

暂无精选评价

课程学习交流

请扫码关注腾讯产业互联网学堂微信公众号

职业发展学习路径

热门技术学习路径

1. 什么是强化学习 Reinforcement Learning

1.1 强化学习 Reinforcement Learning

2. Q Learning 算法概述

2.1 要求准备

2.2 简单例子

2.3 Q Learning 算法更新

2.4 Q Learning 思维决策

3. Sarsa 算法概述

3.1 Sarsa 算法更新

3.2 Sarsa 思维决策

3.3 Sarsa(lambda)

4. DQN 算法

4.1 DQN 算法更新

4.2 DQN 神经网络

4.3 DQN 思维决策

4.4 OpenAI Gym using Tensorflow

4.5 Double DQN using Tensorflow

4.6 DQN with Prioritised Replay using Tensorflow

4.7 Dueling DQN using Tensorflow

5. Policy Gradients 算法

5.1 Policy Gradients 算法更新

5.2 Policy Gradients 思维决策

6. 其他算法

6.1 Actor Critic 演员评论家

6.2 DDPG (Deep Deterministic Policy Gradient)

6.3 A3C (Asynchronous Advantage Actor-Critic)

6.4 PPO/DPPO Proximal Policy Optimization

强化学习（Reinforcement Learning）Python 教学

课程概述

机构简介

讲师简介

课程评价(0)

以下选自学员评价

相关云产品

云服务器

GPU 云服务器

FPGA 云服务器_FPGA 实例_硬件加速

归档

职业发展学习路径

热门技术学习路径

搜索热词

1. 什么是强化学习 Reinforcement Learning

1.1 强化学习 Reinforcement Learning

2. Q Learning 算法概述

2.1 要求准备

2.2 简单例子

2.3 Q Learning 算法更新

2.4 Q Learning 思维决策

3. Sarsa 算法概述

3.1 Sarsa 算法更新

3.2 Sarsa 思维决策

3.3 Sarsa(lambda)

4. DQN 算法

4.1 DQN 算法更新

4.2 DQN 神经网络

4.3 DQN 思维决策

4.4 OpenAI Gym using Tensorflow

4.5 Double DQN using Tensorflow

4.6 DQN with Prioritised Replay using Tensorflow

4.7 Dueling DQN using Tensorflow

5. Policy Gradients 算法

5.1 Policy Gradients 算法更新

5.2 Policy Gradients 思维决策

6. 其他算法

6.1 Actor Critic 演员评论家

6.2 DDPG (Deep Deterministic Policy Gradient)

6.3 A3C (Asynchronous Advantage Actor-Critic)

6.4 PPO/DPPO Proximal Policy Optimization

强化学习（Reinforcement Learning）Python 教学

课程概述

机构简介

讲师简介

课程评价(0)

以下选自学员评价

相关云产品

云服务器

GPU 云服务器

FPGA 云服务器_FPGA 实例_硬件加速

归档