暂无搜索历史
安全强化学习(Safe RL)是强化学习(RL)的一个分支,它关注于在训练智能体时,确保其行为不违反预定的安全约束或规则。传统的强化学习方法侧重于最大化奖...
在现代计算智能领域,优化问题广泛存在于机器学习、工程设计、图像处理、路径规划等诸多应用中。传统梯度类优化方法在处理非凸、高维、不可导问题时表现受...
随着仿真、金融、能源、航天等领域对优化模型精度要求的不断提高,决策变量维度迅速膨胀,传统梯度类方法面临“维数灾难”与“局部陷阱”双重瓶颈。近二十...
狼群算法(Wolf Pack Algorithm, WPA)和灰狼算法(Grey Wolf Optimizer, GWO)虽然都以自然界中的狼为...
在强化学习(Reinforcement Learning, RL)的领域,如何有效地评估和优化策略一直是研究的核心问题之一。强化学习的目标是让智...
PPO(Proximal Policy Optimization)算法是 OpenAI 提出的强化学习算法,旨在改进 TRPO(Trust Region Po...
D*算法(动态A*算法)是一种用于机器人路径规划的算法,特别适合在环境变化的情况下重新计算路径。它的基本思路是动态地、逐步地找到从起点到目标的最短路径,尤其是...
RRT(Rapidly-exploring Random Tree)快速扩展随机树是一种采样式路径规划算法,广泛应用于机器人运动规划、自动驾驶、无人机路径设计...
RRT*算法(Rapidly-exploring Random Tree Star)是一种用于机器人路径规划的算法,旨在为机器人找到从起点到目标的最短路径...
强化学习(Reinforcement Learning,RL) 大致可以分为两类:基于价值的算法 和 基于策略的算法、基于Actor-Criti...
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,...
Dijkstra算法,全称迪杰斯特拉算法,是由荷兰计算机科学家艾兹赫尔·戴克斯特拉(Edsger W. Dijkstra)在1956年提出的,是...
A*算法是一种高效的路径搜索算法,广泛应用于人工智能、机器人技术、游戏开发等领域。它由Peter Hart、Nils Nilsson和Bertr...
Soft Actor-Critic(SAC) 是一种最先进的强化学习算法,属于 Actor-Critic 方法的变体。它特别适合处理 连续动作空...
强化学习中的深度Q网络(DQN)是一种将深度学习与Q学习结合的算法,它通过神经网络逼近Q函数以解决复杂的高维状态问题。然而,DQN存在过估计问题...
双延迟深度确定性策略梯度算法,TD3(Twin Delayed Deep Deterministic Policy Gradient)是强化学习...
深度确定性策略梯度(Deep Deterministic Policy Gradient、DDPG)算法是一种基于深度强化学习的算法,适用于解决...
近端策略优化、PPO(Proximal Policy Optimization)是一种强化学习算法,设计的目的是在复杂任务中既保证性能提升,又让...
Asynchronous Advantage Actor-Critic, A3C(异步优势Actor-Critic)算法可以用通俗的方式解释为一种...
Actor-Critic算法是一种强化学习中的方法,结合了“演员”(Actor)和“评论家”(Critic)两个部分。下面用一个生活中的比喻来说...
暂未填写公司和职称
暂未填写学校和专业