强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
语义分割旨在对图像中的每个像素进行类别划分并对其分配标签。传统图像语义分割技术有基于阈值、基于边缘、基于区域和基于直方图等。尽管这些方法已在图像...
在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust R...
深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with De...
在强化学习(Reinforcement Learning, RL)相关背景下,多级反馈队列(Multilevel Feedback Queue,...
MAPPO 是一种多智能体强化学习算法,基于单智能体的 PPO (Proximal Policy Optimization) 算法进行了扩展,专...
为了进一步提升Curiosity-driven Exploration (CDE)算法在强化学习任务中的性能,可以考虑通过以下几个方面的改进来优...
好奇心驱动探索,Curiosity-driven Exploration (CDE)算法 是一种用于自监督强化学习的算法,旨在通过激发智能体的“...
自预测表征,Self-Predictive Representations (SPR)算法 是一种用于自监督强化学习的算法,旨在通过学习预测未来...
随机潜在演员评论家,Stochastic Latent Actor-Critic (SLAC)算法 是一种用于连续控制任务的自监督强化学习算法,由Googl...
引导式潜在预测表征,Bootstrap Latent-predictive Representations (BLR) 是一种创新的自监督学习方法...
解耦表示学习,Decoupled Representation Learning (DRL) 是一种用于在自监督强化学习(Self-Superv...
随机网络蒸馏(RND)是一种自监督学习方法,旨在提高强化学习中的探索效率。该算法由 Chesney et al. 在论文《Random Network Dis...
自监督强化学习(Self-Supervised Reinforcement Learning, SSRL)是一种结合了自监督学习(Self-Su...
Contrastive Predictive Coding (CPC) 是一种用于学习有效表示的自监督学习方法,它可以用于强化学习环境中来帮助智...
下面这张图片展示了两层结构,上层为管理者(高层策略),下层为工人(低层策略)。管理者选择子目标,表现为分支路径,工人执行动作以实现子目标,动作通过箭头指向远处...
Intrinsic Curiosity Module (ICM) 是一种用于强化学习的内在奖励机制,旨在解决传统强化学习中在稀疏奖励场景下,智能体难以学习...
?本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将...
自监督强化学习(Self-Supervised Reinforcement Learning,SSL-RL)是一种通过让智能体在没有明确外部奖励信号的情况下,自...
离线策略修正分层强化学习,Hierarchical Reinforcement Learning with Off-Policy Correction (HIR...
动态分层强化学习,Dynamic Hierarchical Reinforcement Learning (DHRL) 是一种自适应分层强化学习算法,其目标是...