首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

【RL Application】语义分割中的强化学习方法

不去幼儿园

语义分割旨在对图像中的每个像素进行类别划分并对其分配标签。传统图像语义分割技术有基于阈值、基于边缘、基于区域和基于直方图等。尽管这些方法已在图像...

2000

【RL Base】强化学习:信赖域策略优化(TRPO)算法

不去幼儿园

在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust R...

3500

【RL Base】强化学习核心算法:深度Q网络(DQN)算法

不去幼儿园

深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with De...

2900

【Reinforcement Learning】强化学习下的多级反馈队列(MFQ)算法

不去幼儿园

在强化学习(Reinforcement Learning, RL)相关背景下,多级反馈队列(Multilevel Feedback Queue,...

1400

【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参

不去幼儿园

MAPPO 是一种多智能体强化学习算法,基于单智能体的 PPO (Proximal Policy Optimization) 算法进行了扩展,专...

1600

【SSL-RL】增强Curiosity-driven Exploration (CDE)算法的探索能力

不去幼儿园

为了进一步提升Curiosity-driven Exploration (CDE)算法在强化学习任务中的性能,可以考虑通过以下几个方面的改进来优...

2900

【SSL-RL】自监督强化学习: 好奇心驱动探索 (CDE)算法

不去幼儿园

好奇心驱动探索,Curiosity-driven Exploration (CDE)算法 是一种用于自监督强化学习的算法,旨在通过激发智能体的“...

900

【SSL-RL】自监督强化学习:自预测表征 (SPR)算法

不去幼儿园

自预测表征,Self-Predictive Representations (SPR)算法 是一种用于自监督强化学习的算法,旨在通过学习预测未来...

1700

【SSL-RL】自监督强化学习:随机潜在演员评论家 (SLAC)算法

不去幼儿园

随机潜在演员评论家,Stochastic Latent Actor-Critic (SLAC)算法 是一种用于连续控制任务的自监督强化学习算法,由Googl...

1300

【SSL-RL】自监督强化学习:引导式潜在预测表征 (BLR)算法

不去幼儿园

引导式潜在预测表征,Bootstrap Latent-predictive Representations (BLR) 是一种创新的自监督学习方法...

1700

【SSL-RL】自监督强化学习:解耦表示学习 (DRL)算法

不去幼儿园

解耦表示学习,Decoupled Representation Learning (DRL) 是一种用于在自监督强化学习(Self-Superv...

1700

【SSL-RL】自监督强化学习:随机网络蒸馏(RND)方法

不去幼儿园

随机网络蒸馏(RND)是一种自监督学习方法,旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Dis...

1100

【SSL-RL】自监督强化学习:Plan2Explore算法

不去幼儿园

自监督强化学习(Self-Supervised Reinforcement Learning, SSRL)是一种结合了自监督学习(Self-Su...

2300

【SSL-RL】自监督强化学习:对比预测编码(CPC)算法

不去幼儿园

Contrastive Predictive Coding (CPC) 是一种用于学习有效表示的自监督学习方法,它可以用于强化学习环境中来帮助智...

2500

【Hierarchical RL】不允许你不了解分层强化学习(总结篇)

不去幼儿园

下面这张图片展示了两层结构,上层为管理者(高层策略),下层为工人(低层策略)。管理者选择子目标,表现为分支路径,工人执行动作以实现子目标,动作通过箭头指向远处...

2500

【SSL-RL】基于好奇心驱动的自监督探索机制(ICM算法)

不去幼儿园

Intrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制,旨在解决传统强化学习中在稀疏奖励场景下,智能体难以学习...

2100

【SSL-RL】自监督强化学习:事后经验回放 (HER)算法

不去幼儿园

?本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将...

3300

【RL Latest Tech】自监督强化学习(SSL-RL):理论与方法

不去幼儿园

自监督强化学习(Self-Supervised Reinforcement Learning,SSL-RL)是一种通过让智能体在没有明确外部奖励信号的情况下,自...

1900

【Hierarchical RL】离线策略修正分层强化学习(HIRO)算法

不去幼儿园

离线策略修正分层强化学习,Hierarchical Reinforcement Learning with Off-Policy Correction (HIR...

3100

【Hierarchical RL】动态分层强化学习(DHRL)算法

不去幼儿园

动态分层强化学习,Dynamic Hierarchical Reinforcement Learning (DHRL) 是一种自适应分层强化学习算法,其目标是...

1400

相关产品

  • 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

领券