首页
学习
活动
专区
工具
TVP
发布

深度学习基础知识

深度学习基础知识
专栏成员
9
文章
14841
阅读量
4
订阅数
强化学习系列(九)--A3C
好久没有更新强化学习这个系列了,今天继续更新下强化学习系列的A3C技术,后面会结合当前最火大模型强化学习训练持续更新此系列。
languageX
2024-05-09
1840
强化学习系列(八)--PPO
回顾上文中的DDPG,DDPG是源于DQN,它使用神经网络替换maxQ(s',a')的功能来解决连续空间问题。也就是说DDPG的Actor网络输出的是一个动作,他的目标是输出一个动作,这个动作输入到Critic后,能过获得最大的Q值。和DQN一样,更新的时候如果更新目标在不断变化会使学习过程困难,所以需要固定目标网络,求target的网络更新后再赋值参数,所以需要四个网络。
languageX
2022-04-01
2.8K0
强化学习系列(七)--DDPG
DDPG(deep deterministic policy gradient),深度确定性策略梯度算法。
languageX
2022-04-01
1.8K0
强化学习系列(六)--Actor-Critic实例二
在上文中我们介绍了Acort-Critic的一种实现方式,本文主要介绍AC网络的一些优化算法。
languageX
2022-03-01
1.2K0
强化学习系列(五)--Actor-Critic实例
在基于价值算法中,是根据值函数对策略进行改进,对比基于策略的方法,他的决策更为肯定就是选择价值最高的;而基于策略方法,是直接对策略进行迭代让累计回报最大。
languageX
2022-03-01
1.4K0
强化学习系列(四)-PolicyGradient实例
上文我们介绍了使用简单的Random Guessing Algorithm & Hill Climbing 算法来解决CartPole问题,主要在决策动作这个步骤进行了修改,但是上文介绍的方法都是随机改变权重,针对简单问题参数量比较少的问题可能会得到比较好的效果,但是如果问题复杂,需要参数量多的话,这种方法就不太理想。本文主要介绍基于PolicyGradient方案如何解决CartPole问题。
languageX
2022-02-06
7810
强化学习系列(三)-gym介绍和实例
gym是openAI下的一个开发和对比强化学习算法的工具包,内部提供了强化学习需要的环境。
languageX
2022-02-06
4.2K0
强化学习系列(二)--算法概念
上文我们已经理解强化学习的基础概念以及其目标是找到一个策略 最大化未来累计奖励。同时介绍了几种常用的寻找最优策略的方法。在强化学习中还会将这些方法分类为model-based和model-free,value-based和policy-based,其中value-base的学习方法又分为off-policy和on-policy。本文主要介绍这些方法的区别和概念。
languageX
2022-01-10
1.2K0
强化学习系列(一)--基础概念
最近了解了强化学习方面的知识,准备进行下整理和总结。本文先介绍强化学习中一些基础概念。
languageX
2022-01-05
1.2K0
没有更多了
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档