腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
强化
学习
中
无限
状态
空间
模型
的
构造
、
、
有没有关于
强化
学习
中
无限
状态
空间
模型
的
资料或讲座?或者如何继续创建一个可以具有
无限
状态
空间
的
环境。我希望通过
强化
学习
来生成文本,所以上面的任何指导都会很有帮助。
浏览 14
提问于2017-02-26
得票数 0
1
回答
模型
和策略
的
区别是什么?
、
、
、
这两个定义似乎都表明,它们正在从
状态
映射到行为,那么,两者有什么区别,还是我错了?
浏览 7
提问于2019-07-27
得票数 2
回答已采纳
2
回答
Q-Learning和TD(λ)
中
的
奖励
这两种RL技术
中
的
奖励是如何工作
的
?我
的
意思是,他们都改善了政策和评估,但没有奖励。我怎么才能从一开始就猜到呢?
浏览 0
提问于2012-01-10
得票数 1
1
回答
逆
强化
学习
的
实际应用是什么?
、
逆
强化
学习
是利用专家轨迹
学习
奖励函数。目前最成功
的
方法是最大熵逆
强化
学习
。但在这一点上,你需要一个基于
模型
的
强化
学习
。但世界上大多数实际问题都是无
模型
的
,很难计算出
状态
转移概率。那么,我们如何在现实问题中使用这种逆
强化
学习
呢?
浏览 0
提问于2018-04-02
得票数 3
回答已采纳
1
回答
将RNN
的
隐藏
状态
传递给另一个RNN
、
、
我正在使用
强化
学习
教一个人工智能,一个奥地利纸牌游戏,与不完美的信息,称为施纳普森。对于不同
的
游戏
状态
,我有不同
的
神经网络(使用不同
的
特征)来计算值/策略。我想尝试使用RNN,因为过去
的
操作对于导航未来
的
决策可能很重要。我目前正在使用Julia<e
浏览 0
提问于2021-10-11
得票数 1
1
回答
连续
强化
学习
优化
我正在实现连续
强化
学习
(用深度
强化
学习
的
连续控制),但在优化策略-神经网络时遇到了一些问题。按照本文
的
建议,通过计算和跟踪梯度(梯度上升),使策略
的
q值最大化:最大Q(
状态
,action=policy(
状态
))。然而,由于Q-神经网络(最初)不是Q(
状态
,动作)
的
完全逼近,当政策
的
作用变得很大/
无限
时,我遇到了问题。当行动->
无限
浏览 1
提问于2017-04-29
得票数 2
1
回答
有没有可能使用神经网络/人工智能来“优化”比赛所需
的
时间?
、
、
、
、
该计划完成后,将旨在使用人工智能来获得最快
的
时间。汽车可以以恒定
的
速度加速、刹车或移动。在代码中会有一些部分(代表拐角),速度必须等于或低于某个特定
的
值(取决于拐角有多紧),我希望程序能够决定何时是加速、刹车和以恒定速度移动
的
最佳时刻。谢谢!
浏览 3
提问于2020-07-23
得票数 1
1
回答
倒立摆:基于
模型
还是无
模型
?
这是我在这里
的
第一篇文章,我来这里讨论或得到一些我难以理解
的
东西
的
澄清,即无
模型
与基于
模型
的
RL方法。我目前正在实现Q-learning,但我不确定我做得是否正确。例如:假设我正在对倒立摆应用Q
学习
,其中奖励是以摆向上位置之间
的
绝对距离给出
的
,而终端
状态
(或目标
状态
)被定义为当摆非常接近向上位置时。 这个设置是否意味着我有一个无
模型
的
或基于
模型
<
浏览 1
提问于2018-05-02
得票数 1
1
回答
是否有使用
强化
学习
进行多标签文本分类
的
例子?
、
、
我有一个有标签
的
数据集,我将为多标签分类问题(例如:5个标签)开发一个分类器。我已经开发了伯特和CNN,但我想知道我是否也可以使用RL进行文本分类。 据我所知,使用RL我们可以使用更小
的
训练数据集。我正在寻找RL
的
python代码。
浏览 2
提问于2022-04-26
得票数 0
回答已采纳
1
回答
如何应用
强化
学习
?
、
然后你有一组
状态
,每个
状态
都有一个值。然后,智能体要么选择“探索”,要么选择“利用”,并根据发生
的
事情修改其知识。我正在试着为俄罗斯方块写一个RL代理,但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我,我会很感激
的
浏览 1
提问于2013-11-13
得票数 2
1
回答
连续
状态
和动作
空间
的
强化
学习
、
、
问题当前
状态
是表示物体在环境
中
的
位置(三维)和物体
的
速度(三维)
的
矢量。在环境
中
随机初始化起始位置,以及启动速度。 动作是表示从
状态
t到
状态
t+1<
浏览 0
提问于2019-01-05
得票数 5
回答已采纳
3
回答
Q-learning和Value迭代有什么不同?
、
、
、
Q
学习
与
强化
学习
中
的
值迭代有何不同? 我知道Q- (s, a, s', r)是无
模型
的
,训练样本是转换
学习
。但是,既然我们知道Q
学习
中
的
转变和每个转变
的
奖励,它不是与基于
模型
的
学习
相同吗?在基于
模型
的
学习
中
,我们知道
状态
和动作对<
浏览 2
提问于2015-03-09
得票数 35
回答已采纳
1
回答
连续
状态
和动作
空间
的
强化
学习
、
、
、
问题当前
状态
是表示物体在环境
中
的
位置(三维)和物体
的
速度(三维)
的
矢量。在环境
中
随机初始化起始位置,以及启动速度。 动作是表示从
状态
t到
状态
t+1<
浏览 1
提问于2019-01-05
得票数 2
回答已采纳
2
回答
强化
学习
类似于随机梯度下降吗?
、
、
、
不是严格
的
数学公式,但是,这两种优化方法会有什么关键
的
重叠原则吗?例如,如何 对于国家,行动和奖励
的
例子为RL?考虑到x_i可以被视为一种
状态
,将y_i标记为一种奖励(例如,好/坏标签),将\mathrm{grad}_i标记为一种行为。我理解
强化
学习
是指:(a)
学习<
浏览 0
提问于2021-11-24
得票数 0
回答已采纳
1
回答
如果在
强化
学习
中
状态
空间
是连续
的
,那么策略是什么?
我最近从
强化
学习
开始。当涉及到连续
空间
时,我对代理人
的
政策没有什么疑问。根据我
的
理解,策略告诉代理执行特定
状态
的
动作。当涉及到迷宫
的
例子时,这是有意义
的
,在这个迷宫中,
状态
空间
是有限
的
。如果
状态
空间
是连续
的
,那么代理会在
状态
空间
中获得每个可能
状态
的
信息吗?此
浏览 0
提问于2019-04-18
得票数 1
回答已采纳
1
回答
强化
学习
模型
设计-如何加到5
我正在尝试使用Keras在python中进行
强化
学习
。大多数可用
的
教程使用OpenAI健身房库来创建环境、
状态
和操作集。在练习了许多其他人写
的
好例子之后,我决定要创建自己
的
强化
学习
环境、
状态
和动作集。 从1到4
的
整数数组。我将调用这些目标。,想出最好
的
方法来把它
构造
成一个
强化
设计。我尝试了一些,但
模
浏览 1
提问于2018-09-23
得票数 1
回答已采纳
1
回答
一般情况下,你能用QLearning或
强化
学习
插值吗?
、
我目前正在研究机器
学习
范例在寻路问题上
的
应用。我目前正在研究
强化
学习
模式,我使用QLearning进行路径查找。当
状态
不多时,QLearning似乎运行良好,但一旦环境变得更大,
状态
越多,它
的
性能就越差。由于QLearning
的
收敛速度太慢,我想知道是否可以用QLearning插值未探索
状态
的
QValue,因为QLearning不使用
模型
?是否有可能在一般情况下进行
强化
,还是需要了
浏览 0
提问于2018-04-18
得票数 0
回答已采纳
1
回答
在
强化
学习
中
,我可以在创建转换集时从
状态
空间
随机分配next_states给我
的
代理吗?
、
、
在
强化
学习
中
,同时创建转换示例(
状态
、动作、next_state、奖励),其中:环境:培训师 环境给代理两个反馈:奖励和下一个
状态
。我是否可以作为环境,从总
状态
空间
向我
的
代理随机分配next_states。?我如何决定什么是允许
的
next_state(s)从一个特定
的
州?
浏览 0
提问于2018-12-07
得票数 1
1
回答
基于
模型
和
模型
的
强化
学习
我正在
学习
强化
学习
,我发现了令人困惑
的
信息。我知道有两种不同类型
的
强化
学习
,基于
模型
和
模型
自由。在第二个图像
中
,可以看到TD
学习
,所以我不明白Td
学习
是另一种
强化
学习
还是基于
模型
的
。 📷
浏览 0
提问于2022-02-21
得票数 0
回答已采纳
5
回答
强化
学习
还是监督
学习
?
、
如果在
强化
学习
(RL)算法在现实世界
中
工作之前,需要在模拟环境中进行大量迭代,为什么我们不使用相同
的
模拟环境来生成标记数据,然后使用监督
学习
方法而不是RL?
浏览 3
提问于2018-11-14
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习之——强化学习中的免模型学习
机器学习之——强化学习中的有模型学习
时间序列分析中的状态估计:状态空间模型与卡尔曼滤波的隐状态估计
机器学习之——强化学习中的模仿学习
深度强化学习模型的研究与应用
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券