首页
学习
活动
专区
工具
TVP
发布

智能算法

专栏作者
381
文章
642274
阅读量
111
订阅数
为什么说强化学习是针对优化数据的监督学习?
强化学习(RL)可以从两个不同的视角来看待:优化和动态规划。其中,诸如REINFORCE等通过计算不可微目标期望函数的梯度进行优化的算法被归类为优化视角,而时序差分学习(TD-Learning)或Q-Learning等则是动态规划类算法。
智能算法
2021-02-23
1K0
深度学习算法(第37期)----如何用强化学习玩游戏?
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 深度学习算法(第36期)----强化学习之时间差分学习与近似Q学习 今天我们一起用毕生所学来训练一个玩游戏的AI智能体。
智能算法
2019-12-04
9150
深度学习算法(第36期)----强化学习之时间差分学习与近似Q学习
上期我们一起学习了强化学习中的马尔科夫决策过程的相关知识, 深度学习算法(第35期)----强化学习之马尔科夫决策过程 今天我们学习强化学习中的时间差分学习与Q学习的相关知识。
智能算法
2019-11-25
7190
深度学习算法(第35期)----强化学习之马尔科夫决策过程
上期我们一起学习了强化学习中梯度策略的相关知识, 深度学习算法(第34期)----强化学习之梯度策略实现 今天我们学习强化学习中的马尔科夫决策过程的相关知识。
智能算法
2019-11-14
9740
深度学习算法(第34期)----强化学习之梯度策略实现
上期我们一起学习了强化学习中OpenAI中平衡车的相关环境以及搭建神经网络策略的相关知识, 深度学习算法(第33期)----强化学习之神经网络策略学习平衡车 今天我们学习强化学习中行为评价和梯度策略的相关知识。
智能算法
2019-11-04
7510
深度学习算法(第33期)----强化学习之神经网络策略学习平衡车
上期我们一起学习了强化学习入门的相关知识, 深度学习算法(第32期)----强化学习入门必读
智能算法
2019-10-29
1.5K0
深度学习算法(第32期)----强化学习入门必读
上期我们一起学习了变分自编码器及其实现的相关知识, 深度学习算法(第31期)----变分自编码器及其实现
智能算法
2019-10-24
4690
深度学习漫游指南:强化学习概览
本文是NVIDIA博客上Tim Dettmers所写的《Deep Learning in a Nutshell》系列文章的第四篇。据介绍,该系列文章的目的是「提供对每一种概念的理解而不是其数学和理论上
智能算法
2018-04-02
6440
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档