腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
奖励
正在
收敛
,
但
强化
学习
中
的
操作
不正确
python
、
reinforcement-learning
、
policy
我
正在
开发一个
强化
学习
代理。我
的
奖励
结构看起来像 thermal_coefficient = -0.1 else : temp_penalty = 0 我
的
temp_sp_min当我基于epsilon贪婪动作选择策略训
浏览 12
提问于2019-10-03
得票数 0
3
回答
使用
强化
学习
解决分类问题
machine-learning
、
classification
、
reinforcement-learning
我可以在分类中使用
强化
学习
吗?比如人类活动识别?又是如何做到
的
?
浏览 2
提问于2017-06-17
得票数 11
1
回答
强化
学习
中
奖励
曲线
的
绘制
reinforcement-learning
我想知道如何在
强化
学习
中
绘制
奖励
曲线。在这种情况下,有什么方法可以进行绘图吗?
浏览 3
提问于2018-11-13
得票数 1
2
回答
Q-Learning和TD(λ)
中
的
奖励
reinforcement-learning
这两种RL技术
中
的
奖励
是如何工作
的
?我
的
意思是,他们都改善了政策和评估,
但
没有
奖励
。我怎么才能从一开始就猜到呢?
浏览 0
提问于2012-01-10
得票数 1
5
回答
强化
学习
还是监督
学习
?
reinforcement-learning
、
supervised-learning
如果在
强化
学习
(RL)算法在现实世界
中
工作之前,需要在模拟环境中进行大量迭代,为什么我们不使用相同
的
模拟环境来生成标记数据,然后使用监督
学习
方法而不是RL?
浏览 3
提问于2018-11-14
得票数 1
2
回答
Q-
学习
价值过高
go
、
floating-point
、
reinforcement-learning
、
q-learning
我最近尝试在Golang实现一个基本
的
Q-
学习
算法。请注意,我是新
的
强化
学习
和人工智能在一般,所以错误很可能是我
的
。(即代理移动之后和其他玩家移动之前)保持以前
的
状态,我使用它代替状态
操作
元组,但我不太确定这是否是正确
的
方法 agent.prevScore对以前
的
国家行动给予
奖励
。reward参数表示当前步骤
的
状态
操作
(Qmax)
的
奖
浏览 1
提问于2016-05-30
得票数 4
回答已采纳
1
回答
机器怎么知道哪一步能得到最大
的
奖励
?
machine-learning
、
reinforcement-learning
在我看来,
强化
学习
会从行动
中
得到回报。然而,在玩电子游戏时,大多数步骤(如:街头拳击手)都没有
奖励
(
奖励
== 0 ),最终,我们得到了
奖励
(例如:玩家赢了,
奖励
=1),有这么多动作,机器怎么知道哪一个是赢得这个游戏
的
关键?
浏览 0
提问于2019-05-07
得票数 2
回答已采纳
1
回答
是否有使用
强化
学习
进行多标签文本分类
的
例子?
python
、
reinforcement-learning
、
multilabel-classification
我有一个有标签
的
数据集,我将为多标签分类问题(例如:5个标签)开发一个分类器。我已经开发了伯特和CNN,但我想知道我是否也可以使用RL进行文本分类。 据我所知,使用RL我们可以使用更小
的
训练数据集。我
正在
寻找RL
的
python代码。
浏览 2
提问于2022-04-26
得票数 0
回答已采纳
1
回答
强化
学习
对荷兰拍卖有效吗?
reinforcement-learning
我有以下关于
强化
学习
的
想法:会计问题:
奖励
可能会延迟。可以为类似于荷兰拍卖
的
设置提供
强化
学习
吗?代理商
浏览 0
提问于2017-11-06
得票数 3
1
回答
简单游戏
的
深度
强化
学习
参数与训练时间
machine-learning
、
neural-network
、
artificial-intelligence
、
reinforcement-learning
、
pytorch
我想了解深层
强化
算法是如何工作
的
,以及在任何特定环境下训练自己需要多长时间。我想出了一个非常简单
的
环境例子:输出神经网络以这个方向作为输入,以两个可能
的
动作作为输出。第二步行动将保持原来
的
方向。 我使用python作为后端,javascript用于前端。它似乎花费了太多
的
时间
浏览 0
提问于2017-10-27
得票数 2
回答已采纳
1
回答
如何用神经网络实现寻径和拥塞检测?
machine-learning
、
neural-network
、
artificial-intelligence
、
path-finding
、
congestion-control
路径A->C上
的
方框比方框B->D具有更高
的
优先级。方框可以在每个方块
中
停下来等待。如果在A2和B2上都有一个框,那么来自A2
的
框应该先经过X。如果在C2,C1,A2和B2上有盒子,那么B2
的
盒子应该经过X,A2上
的
盒子应该等待,直到C1为空。否则它将阻塞路径B->D。我不知道神经网络是否是解决这个问题
的
好工具,但我只是
浏览 25
提问于2016-02-26
得票数 0
1
回答
多变量多产品
强化
学习
reinforcement-learning
、
multi-agent-reinforcement-learning
最近我读到了很多关于
强化
学习
( RL )
的
文章,所有的材料都涉及到用一个变量(历史股票价格、历史飞行价格)来预测单个股票
的
价格(预测单个股票
的
价格,一个航班
的
价格)。我
的
用法是,让我们说,我有1000 s
的
产品在我
的
网站上销售。我有关于这些物品
的
所有交易
的
细节。对于每一个项目,我想找到最优
的
价格点,通过查看历史信息(数量,价格,类别)。是否可以在每个产品都有多个变量
的</e
浏览 6
提问于2022-09-30
得票数 0
3
回答
为什么RL被称为“
强化
”
学习
?
machine-learning
、
deep-learning
、
reinforcement-learning
我理解为什么机器
学习
是这样命名
的
,除此之外,还有监督
学习
和无监督
学习
背后
的
术语。那么,关于
强化
学习
,reinforced是什么?
浏览 63
提问于2018-05-28
得票数 4
回答已采纳
1
回答
利用机器
学习
进行优化
的
项目
machine-learning
我想做一个网站项目,使用机器
学习
,以优化汽车吞吐量在一个城市。这将是一个卡通网格
的
点试图导航通过一个网格
的
街道与红灯在每个十字路口。但是,我还没有找到正确
的
资源来
学习
这种类型
的
ML优化。开始
的
想法是,每个时代都会给红绿灯
的
栅格设置相同
的
一组汽车,红绿灯猜出自己
的
绿/红频率,以最大限度地增加交通流量。因此,该模型将
学习
的
衡量标准是通过灯光行驶
的
汽车数量(或
浏览 8
提问于2022-08-23
得票数 -2
回答已采纳
2
回答
为什么我
的
模型不
学习
?极高损失
tensorflow
、
keras
、
deep-learning
、
reinforcement-learning
、
openai-gym
我建立了一个模拟模型,卡车收集垃圾箱
的
基础上,他们
的
填充水平。我使用OpenAi健身房和Tensorflow/keras创建了我
的
深层
强化
学习
模型。但我
的
训练损失很大..。我哪里出错了?containers1)actions = env.action_space.n我
的
模型
浏览 1
提问于2022-03-22
得票数 1
回答已采纳
1
回答
我们如何评估策略梯度方法
中
的
回报
中
的
每个
奖励
?
reinforcement-learning
、
policy-gradient-descent
嗨,StackOverflow社区,在策略梯度方法
中
,我们基于从该步骤开始
的
回报(即总回报)来增加/减少
操作
的
对数概率。因此,如果我们
的
回报很高,我们就增加它,但我在这一步遇到了问题。我们如何处理这个问题?我们如
浏览 1
提问于2019-06-10
得票数 0
1
回答
一般情况下,你能用QLearning或
强化
学习
插值吗?
reinforcement-learning
、
q-learning
我目前
正在
研究机器
学习
范例在寻路问题上
的
应用。我目前
正在
研究
强化
学习
模式,我使用QLearning进行路径查找。当状态不多时,QLearning似乎运行良好,
但
一旦环境变得更大,状态越多,它
的
性能就越差。由于QLearning
的
收敛
速度太慢,我想知道是否可以用QLearning插值未探索状态
的
QValue,因为QLearning不使用模型?是否有可能在一般情况下进行
强化
,还是需要了
浏览 0
提问于2018-04-18
得票数 0
回答已采纳
1
回答
强化
学习
智能体训练期间累积
的
情景
奖励
的
几次下降
artificial-intelligence
、
reinforcement-learning
、
agent
、
temporal-difference
、
dqn
嗨,我
正在
用PPO算法训练
强化
学习
智能体来解决一个控制问题。我
正在
跟踪训练过程
中
每一集
的
累积
奖励
。在训练过程
中
,有几次我看到累积
的
奖励
突然下降。我不知道为什么会发生这种情况,也不知道如何避免这种情况。尝试改变一些超参数,如改变神经网络层
中
神经元
的
数量,
学习
率等。但我仍然看到这种情况一直在发生。如果我调试并检查在dips期间采取
的
操作</e
浏览 16
提问于2019-11-25
得票数 0
1
回答
是否有可能在A2C稳定基线3
中
公开回放缓冲区以包括人工判断?
python
、
reinforcement-learning
、
stable-baselines
我
正在
使用来自稳定基础3 ()包
的
A2C (AdvantageActor批评者)框架来解决
奖励
为+1或0
的
强化
问题。我有一种自动机制,在给定
的
状态下分配
奖励
给一个选择。然而,这种自动机制并不足以
奖励
我
的
选择。我已经评估过,人
的
判断(如果一个人坐着并
奖励
选择)是更好
的
。 现在,我想在培训中将这种人
的
判断纳入A2C框架。这是我对A2C工作方式
的
理解:
浏览 3
提问于2022-04-13
得票数 0
3
回答
每个状态都是终端
的
强化
学习
machine-learning
、
reinforcement-learning
我
的
问题不是关于
强化
学习
的
实施,而是理解当每个状态都是一个终结状态时,RL
的
概念。如果我们考虑情节性
的
RL,我觉得这个方法没有意义。事实上,机器人射击并得到回报:每一集都是最后一集。将下一个状态传递给系统是没有意义
的
,
浏览 0
提问于2019-02-25
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
强化学习的基础知识和6种基本算法解释
基于分层强化学习的自动驾驶轨迹规划
为什么说强化学习是针对优化数据的监督学习?
深度强化学习探索算法最新综述,近200篇文献揭示挑战和未来方向
谷歌正在使用AI设计可加速AI的芯片
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券