智能算法-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

智能算法

专栏成员

381

文章

678454

阅读量

111

订阅数

为什么说强化学习是针对优化数据的监督学习？

强化学习监督学习编程算法学习方法

强化学习（RL）可以从两个不同的视角来看待：优化和动态规划。其中，诸如REINFORCE等通过计算不可微目标期望函数的梯度进行优化的算法被归类为优化视角，而时序差分学习（TD-Learning）或Q-Learning等则是动态规划类算法。

2021-02-23

1.1K0

深度学习算法(第37期)----如何用强化学习玩游戏？

游戏强化学习编程算法 python

上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识，深度学习算法(第36期)----强化学习之时间差分学习与近似Q学习今天我们一起用毕生所学来训练一个玩游戏的AI智能体。

2019-12-04

9730

深度学习算法(第36期)----强化学习之时间差分学习与近似Q学习

编程算法强化学习

上期我们一起学习了强化学习中的马尔科夫决策过程的相关知识，深度学习算法(第35期)----强化学习之马尔科夫决策过程今天我们学习强化学习中的时间差分学习与Q学习的相关知识。

2019-11-25

7640

深度学习算法(第35期)----强化学习之马尔科夫决策过程

编程算法强化学习

上期我们一起学习了强化学习中梯度策略的相关知识，深度学习算法(第34期)----强化学习之梯度策略实现今天我们学习强化学习中的马尔科夫决策过程的相关知识。

2019-11-14

1K0

深度学习算法(第34期)----强化学习之梯度策略实现

编程算法神经网络强化学习

上期我们一起学习了强化学习中OpenAI中平衡车的相关环境以及搭建神经网络策略的相关知识，深度学习算法(第33期)----强化学习之神经网络策略学习平衡车今天我们学习强化学习中行为评价和梯度策略的相关知识。

2019-11-04

7800

深度学习算法(第33期)----强化学习之神经网络策略学习平衡车

神经网络游戏强化学习机器人

上期我们一起学习了强化学习入门的相关知识，深度学习算法(第32期)----强化学习入门必读

2019-10-29

1.7K0

深度学习算法(第32期)----强化学习入门必读

强化学习游戏编程算法机器人

上期我们一起学习了变分自编码器及其实现的相关知识，深度学习算法(第31期)----变分自编码器及其实现

2019-10-24

4950

深度学习漫游指南：强化学习概览

深度学习强化学习

本文是NVIDIA博客上Tim Dettmers所写的《Deep Learning in a Nutshell》系列文章的第四篇。据介绍，该系列文章的目的是「提供对每一种概念的理解而不是其数学和理论上

2018-04-02

6610

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态