腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
强化学习专栏
专栏成员
举报
162
文章
32435
阅读量
29
订阅数
订阅专栏
申请加入专栏
全部文章(162)
算法(97)
强化学习(63)
函数(53)
模型(38)
数据(37)
网络(35)
人工智能(31)
优化(31)
笔记(26)
self(25)
系统(21)
测试(19)
通信(15)
state(13)
ssl(12)
设计(10)
搜索(9)
性能(8)
python(7)
机器人(7)
神经网络(6)
游戏(6)
互联网(6)
基础(6)
论文(6)
机器学习(5)
深度学习(5)
actor(5)
程序(5)
原理(5)
代理(4)
架构(4)
连接(4)
数组(4)
学习笔记(4)
android(3)
网站(3)
大数据(3)
聚类算法(3)
app(3)
遍历(3)
集合(3)
终端(3)
深度强化学习(3)
自动驾驶(2)
嵌入式(2)
matlab(2)
linux(2)
知识图谱(2)
自动化(2)
决策树(2)
pytorch(2)
模式识别(2)
迁移学习(2)
迁移(2)
action(2)
alpha(2)
plot(2)
size(2)
编程(2)
变量(2)
编码(2)
博客(2)
程序设计(2)
队列(2)
对象(2)
规范化(2)
技巧(2)
科技(2)
框架(2)
软件(2)
实践(2)
手机(2)
数学(2)
索引(2)
统计(2)
协议(2)
芯片(2)
异步(2)
重构(2)
人脸识别(1)
区块链(1)
qt(1)
医疗(1)
渲染(1)
存储(1)
分布式(1)
监督学习(1)
线性回归(1)
无监督学习(1)
安全(1)
https(1)
mqtt(1)
分类算法(1)
教育(1)
智能穿戴(1)
agent(1)
ant(1)
com(1)
cql(1)
double(1)
fs(1)
gpio(1)
gradient(1)
include(1)
int(1)
line(1)
ls(1)
meta(1)
mnist(1)
network(1)
nodes(1)
offline(1)
plc(1)
policy(1)
process(1)
range(1)
return(1)
sum(1)
task(1)
tcp(1)
time(1)
torch(1)
百度(1)
编程语言(1)
部署(1)
产品(1)
程序员(1)
定时器(1)
动画(1)
二进制(1)
服务(1)
服务器(1)
工具(1)
公众号(1)
行业(1)
集群(1)
脚本(1)
教程(1)
解决方案(1)
客户端(1)
蓝牙(1)
量子计算(1)
排序(1)
配置(1)
权限(1)
入门(1)
事件(1)
视频(1)
思维导图(1)
调试(1)
系统设计(1)
效率(1)
压缩(1)
研发(1)
硬件(1)
语音(1)
字符串(1)
数字孪生(1)
搜索文章
搜索
搜索
关闭
一学就会:A*算法详细介绍(Python)
搜索
算法
python
机器人
函数
A*算法是一种高效的路径搜索算法,广泛应用于人工智能、机器人技术、游戏开发等领域。它由Peter Hart、Nils Nilsson和Bertram Raphael于1968年首次提出。A算法结合了Dijkstra算法的系统性搜索和启发式搜索的优点,通过使用启发式函数来减少搜索空间,同时保证找到最短路径。
不去幼儿园
2025-03-01
149
0
【强化学习】Soft Actor-Critic (SAC) 算法
actor
函数
算法
网络
强化学习
Soft Actor-Critic(SAC) 是一种最先进的强化学习算法,属于 Actor-Critic 方法的变体。它特别适合处理 连续动作空间,并通过引入最大熵(Maximum Entropy)强化学习的思想,解决了许多传统算法中的稳定性和探索问题。
不去幼儿园
2025-01-08
281
0
【强化学习】Double DQN(Double Deep Q-Network)算法
网络
强化学习
double
network
算法
强化学习中的深度Q网络(DQN)是一种将深度学习与Q学习结合的算法,它通过神经网络逼近Q函数以解决复杂的高维状态问题。然而,DQN存在过估计问题(Overestimation Bias),即在更新Q值时,由于同时使用同一个网络选择动作和计算目标Q值,可能导致Q值的估计偏高。
不去幼儿园
2025-01-08
490
0
【强化学习】双延迟深度确定性策略梯度算法(TD3)详解
self
函数
算法
网络
强化学习
双延迟深度确定性策略梯度算法,TD3(Twin Delayed Deep Deterministic Policy Gradient)是强化学习中专为解决连续动作空间问题设计的一种算法。TD3算法的提出是在深度确定性策略梯度(DDPG)算法的基础上改进而来,用于解决强化学习训练中存在的一些关键挑战。
不去幼儿园
2025-01-02
505
0
【强化学习】深度确定性策略梯度算法(DDPG)详解(附代码)
网络
优化
强化学习
self
算法
深度确定性策略梯度(Deep Deterministic Policy Gradient、DDPG)算法是一种基于深度强化学习的算法,适用于解决连续动作空间的问题,比如机器人控制中的连续运动。它结合了确定性策略和深度神经网络,是一种模型无关的强化学习算法,属于Actor-Critic框架,并且同时利用了DQN和PG(Policy Gradient)的优点。
不去幼儿园
2025-01-02
642
0
【强化学习】近端策略优化算法(PPO)万字详解(附代码)
强化学习
函数
算法
异步
优化
近端策略优化、PPO(Proximal Policy Optimization)是一种强化学习算法,设计的目的是在复杂任务中既保证性能提升,又让算法更稳定和高效。以下用通俗易懂的方式介绍其核心概念和流程。
不去幼儿园
2025-01-02
3.8K
0
【强化学习】异步优势Actor-Critic, A3C算法(对比AC、A2C)
强化学习
actor
函数
算法
异步
Asynchronous Advantage Actor-Critic, A3C(异步优势Actor-Critic)算法可以用通俗的方式解释为一种“团队协作”的强化学习方法,它的核心思想是通过多个线程(“团队成员”)同时工作,快速学习一个任务的最佳策略。
不去幼儿园
2024-12-26
178
0
【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)
网络
强化学习
actor
函数
算法
Actor-Critic算法是一种强化学习中的方法,结合了“演员”(Actor)和“评论家”(Critic)两个部分。下面用一个生活中的比喻来说明它的原理:
不去幼儿园
2024-12-26
498
0
【强化学习】策略梯度---REINFORCE算法
优化
强化学习
函数
算法
网络
REINFORCE 是一种策略梯度算法,用于强化学习中的策略优化问题。它的核心思想是直接优化策略,通过采样环境中的轨迹来估计梯度并更新策略。
不去幼儿园
2024-12-18
240
0
【强化学习】基础在线算法:Sarsa算法
state
函数
基础
算法
强化学习
Sarsa算法是一种强化学习(Reinforcement Learning, RL)的经典算法,属于时序差分(Temporal Difference, TD)方法。它是一种基于策略的学习算法,用于解决马尔可夫决策过程(Markov Decision Process, MDP)中的问题。
不去幼儿园
2024-12-18
125
0
【强化学习】策略梯度(Policy Gradient,PG)算法
policy
函数
算法
强化学习
gradient
在强化学习中,Policy Gradient(策略梯度)算法是一类通过优化策略函数直接来求解最优策略的方法。与基于值函数(例如Q学习和SARSA)的方法不同,策略梯度方法直接对策略函数进行建模,目标是通过梯度下降的方法来最大化预期的累积奖励(即期望回报)。这些算法主要适用于连续的动作空间或高维问题,能够在复杂的环境中取得较好的性能。
不去幼儿园
2024-12-18
338
0
【强化学习】基础离线算法:Q-Learning算法
强化学习
函数
基础
模型
算法
在强化学习中,Q-Learning 是一种基于值函数的强化学习算法。它通过学习一个状态-动作值函数(Q函数)来选择最优策略。Q-Learning 是一种 无模型(model-free) 的强化学习方法,意味着它不需要了解环境的动态(即转移概率和奖励函数),而只依赖于与环境的交互。
不去幼儿园
2024-12-18
418
0
【SARL】单智能体强化学习(Single-Agent Reinforcement Learning)《纲要》
游戏
强化学习
机器人
agent
自动驾驶
强化学习(Reinforcement Learning,简称 RL)是一种让机器“通过尝试和错误学习”的方法。它模拟了人类和动物通过经验积累来学会做决策的过程,目的是让机器或智能体能够在复杂的环境中选择最优的行为,从而获得最大的奖励。
不去幼儿园
2024-12-18
98
0
一文学习什么是马尔科夫决策过程(Markov Decision Process, MDP)、以及它的变体POMDP、Dec_POMDP等
process
函数
算法
系统
强化学习
什么是马尔科夫决策过程(Markov Decision Process, MDP)
不去幼儿园
2024-12-18
586
0
【RL Application】语义分割中的强化学习方法
强化学习
模型
数据
算法
网络
语义分割旨在对图像中的每个像素进行类别划分并对其分配标签。传统图像语义分割技术有基于阈值、基于边缘、基于区域和基于直方图等。尽管这些方法已在图像处理领域得到了广泛应用,但在实际应用中,由于分割精度和效率的局限,往往难以满足更高的需求。此外,仅依赖单一的传统分割算法难以获得预期的分割效果,限制了其在复杂场景中的应用潜力。 随着深度学习技术,尤其是卷积神经网络(CNN)在语义分割领域的广泛应用,极大推动了语义分割技术的发展。深度图像语义分割模型的出现显著提高了语义分割的性能和准确度,使得这些技术在自动驾驶、医学影像、虚拟现实、增强现实等多个领域发挥重要作用,并展示了广阔的市场应用潜力。代表性的深度图像语义分割模型包括 FCN、U-Net、FPN、SegNet、DeepLab 系列等。
不去幼儿园
2024-12-03
143
0
【RL Base】强化学习:信赖域策略优化(TRPO)算法
torch
算法
优化
强化学习
action
在强化学习(RL)领域,如何稳定地优化策略是一个核心挑战。2015 年,由 John Schulman 等人提出的信赖域策略优化(Trust Region Policy Optimization, TRPO)算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度,避免了策略更新过大导致的不稳定问题,是强化学习中经典的策略优化方法之一。
不去幼儿园
2024-12-03
213
0
【RL Base】强化学习核心算法:深度Q网络(DQN)算法
强化学习
self
函数
算法
网络
深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with Deep Reinforcement Learning》中提出。DQN通过结合深度学习和强化学习,利用神经网络近似Q值函数,在高维、连续状态空间的环境中表现出了强大的能力。
不去幼儿园
2024-12-03
233
0
【Reinforcement Learning】强化学习下的多级反馈队列(MFQ)算法
优化
强化学习
队列
函数
算法
在强化学习(Reinforcement Learning, RL)相关背景下,多级反馈队列(Multilevel Feedback Queue, MFQ)算法可以作为调度问题的求解框架,用于优化资源分配和任务调度策略。在这种情况下,MFQ的概念和机制可以被调整为一种面向学习的形式,其中调度策略通过强化学习算法来动态优化。
不去幼儿园
2024-12-03
164
0
【RL Base】多级反馈队列(MFQ)算法
time
队列
算法
self
task
多级反馈队列(MFQ)是一种经典的调度算法,广泛用于操作系统任务调度,也可用于强化学习环境的任务调度中。它是一种灵活且高效的调度机制,通过动态调整任务在不同队列中的优先级,实现公平性和响应时间的优化。
不去幼儿园
2024-12-03
129
0
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
强化学习
数据
算法
网络
优化
MAPPO 是一种多智能体强化学习算法,基于单智能体的 PPO (Proximal Policy Optimization) 算法进行了扩展,专门设计用于解决多智能体协作和竞争环境中的决策问题。
不去幼儿园
2024-12-03
350
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档