强化学习中无限状态空间模型的构造

、、

有没有关于强化学习中无限状态空间模型的资料或讲座？或者如何继续创建一个可以具有无限状态空间的环境。我希望通过强化学习来生成文本，所以上面的任何指导都会很有帮助。

浏览 14提问于2017-02-26得票数 0

1回答

模型和策略的区别是什么？

、、、

这两个定义似乎都表明，它们正在从状态映射到行为，那么，两者有什么区别，还是我错了？

浏览 7提问于2019-07-27得票数 2

回答已采纳

2回答

Q-Learning和TD(λ)中的奖励

这两种RL技术中的奖励是如何工作的？我的意思是，他们都改善了政策和评估，但没有奖励。我怎么才能从一开始就猜到呢？

浏览 0提问于2012-01-10得票数 1

1回答

逆强化学习的实际应用是什么？

、

逆强化学习是利用专家轨迹学习奖励函数。目前最成功的方法是最大熵逆强化学习。但在这一点上，你需要一个基于模型的强化学习。但世界上大多数实际问题都是无模型的，很难计算出状态转移概率。那么，我们如何在现实问题中使用这种逆强化学习呢？

浏览 0提问于2018-04-02得票数 3

回答已采纳

1回答

将RNN的隐藏状态传递给另一个RNN

、、

我正在使用强化学习教一个人工智能，一个奥地利纸牌游戏，与不完美的信息，称为施纳普森。对于不同的游戏状态，我有不同的神经网络(使用不同的特征)来计算值/策略。我想尝试使用RNN，因为过去的操作对于导航未来的决策可能很重要。我目前正在使用Julia<e

浏览 0提问于2021-10-11得票数 1

1回答

连续强化学习优化

我正在实现连续强化学习(用深度强化学习的连续控制)，但在优化策略-神经网络时遇到了一些问题。按照本文的建议，通过计算和跟踪梯度(梯度上升)，使策略的q值最大化:最大Q(状态，action=policy(状态))。然而，由于Q-神经网络(最初)不是Q(状态，动作)的完全逼近，当政策的作用变得很大/无限时，我遇到了问题。当行动->无限

浏览 1提问于2017-04-29得票数 2

1回答

有没有可能使用神经网络/人工智能来“优化”比赛所需的时间？

、、、、

该计划完成后，将旨在使用人工智能来获得最快的时间。汽车可以以恒定的速度加速、刹车或移动。在代码中会有一些部分(代表拐角)，速度必须等于或低于某个特定的值(取决于拐角有多紧)，我希望程序能够决定何时是加速、刹车和以恒定速度移动的最佳时刻。谢谢！

浏览 3提问于2020-07-23得票数 1

1回答

倒立摆:基于模型还是无模型？

这是我在这里的第一篇文章，我来这里讨论或得到一些我难以理解的东西的澄清，即无模型与基于模型的RL方法。我目前正在实现Q-learning，但我不确定我做得是否正确。例如:假设我正在对倒立摆应用Q学习，其中奖励是以摆向上位置之间的绝对距离给出的，而终端状态(或目标状态)被定义为当摆非常接近向上位置时。这个设置是否意味着我有一个无模型的或基于模型<

浏览 1提问于2018-05-02得票数 1

1回答

是否有使用强化学习进行多标签文本分类的例子？

、、

我有一个有标签的数据集，我将为多标签分类问题(例如:5个标签)开发一个分类器。我已经开发了伯特和CNN，但我想知道我是否也可以使用RL进行文本分类。据我所知，使用RL我们可以使用更小的训练数据集。我正在寻找RL的python代码。

浏览 2提问于2022-04-26得票数 0

回答已采纳

1回答

如何应用强化学习？

、

然后你有一组状态，每个状态都有一个值。然后，智能体要么选择“探索”，要么选择“利用”，并根据发生的事情修改其知识。我正在试着为俄罗斯方块写一个RL代理，但我似乎找不到答案。如果有人能用ELI5就好了。如果有人能帮我，我会很感激的

浏览 1提问于2013-11-13得票数 2

1回答

连续状态和动作空间的强化学习

、、

问题当前状态是表示物体在环境中的位置(三维)和物体的速度(三维)的矢量。在环境中随机初始化起始位置，以及启动速度。动作是表示从状态t到状态t+1<

浏览 0提问于2019-01-05得票数 5

回答已采纳

3回答

Q-learning和Value迭代有什么不同？

、、、

Q学习与强化学习中的值迭代有何不同？我知道Q- (s, a, s', r)是无模型的，训练样本是转换学习。但是，既然我们知道Q学习中的转变和每个转变的奖励，它不是与基于模型的学习相同吗?在基于模型的学习中，我们知道状态和动作对<

浏览 2提问于2015-03-09得票数 35

回答已采纳

1回答

连续状态和动作空间的强化学习

、、、

浏览 1提问于2019-01-05得票数 2

回答已采纳

2回答

强化学习类似于随机梯度下降吗？

、、、

不是严格的数学公式，但是，这两种优化方法会有什么关键的重叠原则吗？例如，如何对于国家，行动和奖励的例子为RL？考虑到x_i可以被视为一种状态，将y_i标记为一种奖励(例如，好/坏标签)，将\mathrm{grad}_i标记为一种行为。我理解强化学习是指：(a)学习<

浏览 0提问于2021-11-24得票数 0

回答已采纳

1回答

如果在强化学习中状态空间是连续的，那么策略是什么？

我最近从强化学习开始。当涉及到连续空间时，我对代理人的政策没有什么疑问。根据我的理解，策略告诉代理执行特定状态的动作。当涉及到迷宫的例子时，这是有意义的，在这个迷宫中，状态空间是有限的。如果状态空间是连续的，那么代理会在状态空间中获得每个可能状态的信息吗？此

浏览 0提问于2019-04-18得票数 1

回答已采纳

1回答

强化学习模型设计-如何加到5

我正在尝试使用Keras在python中进行强化学习。大多数可用的教程使用OpenAI健身房库来创建环境、状态和操作集。在练习了许多其他人写的好例子之后，我决定要创建自己的强化学习环境、状态和动作集。从1到4的整数数组。我将调用这些目标。，想出最好的方法来把它构造成一个强化设计。我尝试了一些，但模

浏览 1提问于2018-09-23得票数 1

回答已采纳

1回答

一般情况下，你能用QLearning或强化学习插值吗？

、

我目前正在研究机器学习范例在寻路问题上的应用。我目前正在研究强化学习模式，我使用QLearning进行路径查找。当状态不多时，QLearning似乎运行良好，但一旦环境变得更大，状态越多，它的性能就越差。由于QLearning的收敛速度太慢，我想知道是否可以用QLearning插值未探索状态的QValue，因为QLearning不使用模型？是否有可能在一般情况下进行强化，还是需要了

浏览 0提问于2018-04-18得票数 0

回答已采纳

1回答

在强化学习中，我可以在创建转换集时从状态空间随机分配next_states给我的代理吗？

、、

在强化学习中，同时创建转换示例(状态、动作、next_state、奖励)，其中：环境:培训师环境给代理两个反馈:奖励和下一个状态。我是否可以作为环境，从总状态空间向我的代理随机分配next_states。？我如何决定什么是允许的next_state(s)从一个特定的州？

浏览 0提问于2018-12-07得票数 1

1回答

基于模型和模型的强化学习

我正在学习强化学习，我发现了令人困惑的信息。我知道有两种不同类型的强化学习，基于模型和模型自由。在第二个图像中，可以看到TD学习，所以我不明白Td学习是另一种强化学习还是基于模型的。 📷

浏览 0提问于2022-02-21得票数 0

回答已采纳

5回答

强化学习还是监督学习？

、

如果在强化学习(RL)算法在现实世界中工作之前，需要在模拟环境中进行大量迭代，为什么我们不使用相同的模拟环境来生成标记数据，然后使用监督学习方法而不是RL？

浏览 3提问于2018-11-14得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

模型和策略的区别是什么？

Q-Learning和TD(λ)中的奖励

逆强化学习的实际应用是什么？

将RNN的隐藏状态传递给另一个RNN

连续强化学习优化

有没有可能使用神经网络/人工智能来“优化”比赛所需的时间？

倒立摆:基于模型还是无模型？

是否有使用强化学习进行多标签文本分类的例子？

如何应用强化学习？

连续状态和动作空间的强化学习

Q-learning和Value迭代有什么不同？

连续状态和动作空间的强化学习

强化学习类似于随机梯度下降吗？

如果在强化学习中状态空间是连续的，那么策略是什么？

强化学习模型设计-如何加到5

一般情况下，你能用QLearning或强化学习插值吗？

在强化学习中，我可以在创建转换集时从状态空间随机分配next_states给我的代理吗？

基于模型和模型的强化学习

强化学习还是监督学习？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐