一个人应该如何在RL计划中设置即时奖励？

在RL（强化学习）计划中，即时奖励是指在每个时间步骤上，根据智能体（agent）的行为给予的即时反馈。设置即时奖励是一个关键的步骤，它可以影响智能体的学习效果和行为策略。

以下是一个人在RL计划中设置即时奖励的步骤和注意事项：

定义目标：首先，需要明确 RL 计划的目标是什么。例如，如果智能体是一个游戏玩家，目标可能是获得最高分或通过关卡。根据目标，可以确定奖励的方向和取值范围。
设计奖励函数：根据目标，设计一个奖励函数来评估智能体的行为。奖励函数应该根据行为的好坏给予正向或负向的奖励值。例如，在游戏中，智能体成功通过一个关卡可以给予正向奖励，而失败则给予负向奖励。
奖励稀疏性：在设计奖励函数时，需要注意奖励的稀疏性问题。如果奖励太稀疏，智能体可能很难学习到正确的行为策略。可以考虑使用逐步奖励或中间目标来缓解奖励稀疏性问题。
奖励尺度：奖励函数的尺度也需要考虑。如果奖励值的范围太大或太小，可能会导致智能体学习困难。可以通过归一化或调整奖励函数来控制奖励尺度。
奖励探索平衡：在 RL 计划中，智能体需要在探索和利用之间进行平衡。奖励函数应该鼓励智能体进行探索，以便发现更好的行为策略。可以通过设置探索奖励或使用基于不确定性的奖励函数来实现探索平衡。
调试和优化：设置好奖励函数后，需要进行调试和优化。可以通过观察智能体的行为和学习曲线来判断奖励函数的效果，并根据需要进行调整和改进。

总之，设置即时奖励是 RL 计划中的重要环节，需要根据目标、奖励稀疏性、奖励尺度和探索平衡等因素进行设计。合理的奖励函数可以帮助智能体学习到有效的行为策略。

页面内容是否对你有帮助？

有帮助

没帮助

一个人应该如何在RL计划中设置即时奖励？

、、

我希望我的RL代理尽可能快地达到目标，同时最小化它使用特定资源T的次数(这有时是必要的)。我考虑将即时奖励设置为每一步-1，如果代理使用T，则额外设置-1，如果达到目标，则设置为0。但是附加的-1是完全任意的，我如何决定代理应该因为使用T而受到多大的惩罚？

浏览 9提问于2017-07-20得票数 2

回答已采纳

1回答

它使数据科学家能够将模型开发和环境设置/构建分开，并将重点放在他们真正应该关注的方面。背景:为什么健身房(2016)强化学习(RL)是与决策和运动控制相关的机器学习的子领域。它研究一个agent如何在复杂的、不确定的环境中学习如何实现目标。RL甚至可以应用于具有顺序或结构化输出的有监督学习问题。在许多困难的环境中，RL算法已经开始取得良好的效果。RL有着悠久的历史，但直到最近在深入学习方面取得了进展，它还需要大量针对具

浏览 0提问于2021-03-06得票数 2

3回答

Q学习vs动态编程

、、、

经典的Q学习算法，使用查找表(而不是函数近似)，等同于动态编程吗？

浏览 5提问于2016-08-17得票数 11

回答已采纳

2回答

大卫·希尔弗讲座2中对奖励的困惑

当我在youtube上观看大卫·西尔弗的强化学习课程(以及幻灯片：)时，我发现“奖励”和“价值功能”真的令人困惑。为什么对班级的负报酬和对Pub的积极奖励？为什么不同的值如何用折扣率计算报酬？

浏览 0提问于2019-05-30得票数 1

回答已采纳

1回答

这是一种Q学习算法还是一种蛮力？

、、、

所有其他动作都是基于对以前奖励的利用。奖励:如果比赛结果是胜利，那么奖励10分。如果比赛结果是平局，0分，否则-5分。实际上，这些奖励可以被“调整”，这样如果游戏更短，并且它被赢了，那么奖励更多的分数或者是更长的奖励更少的分数。这样，算法更倾向于快速获胜。这意味着它学会了尽快赢得比赛，而不是以后去争取胜利。然而，根据https://www.cse.unsw.edu.au/~cs9417ml/RL1/tdlearning

浏览 0提问于2018-03-10得票数 10

回答已采纳

1回答

健身纸牌游戏:奖励造型

、

我正在为openai健身房做一个纸牌游戏，目前我问自己如何塑造它的奖励功能。游戏的第一轮由每个玩家从手中挑选一张牌组成，而不是每一张牌都取决于其中一位玩家以前玩过的牌。在卡被拒绝的情况下，我想给代理人一些奖励。在无效卡的情况下，很难判断该卡是否比任何其他有效卡更接近有效卡。此外，代理应该知道，这张卡是不可玩的，在这一点。为了完整起见，代理获取它能够记住的游戏的所有内容的离散观察(它自己的牌，在当前回合中玩的牌，过去几轮中玩的牌，游戏模式(定义牌的总顺序))。然后，它应该玩一个离散的动作

浏览 0提问于2018-03-09得票数 1

回答已采纳

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

、、、、

我最近听说了不同的人工智能训练来玩游戏，如马里奥，围棋等。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？对于初学者来说，你推荐什么游戏？

浏览 0提问于2017-01-04得票数 9

回答已采纳

1回答

默认情况下，如何使emacs从文件中/从文件加载到* load *？

、、、、

问题是：我想留在我的rkt/scm文件中，如果还没有弹出，我希望看到repl缓冲区弹出。像这个简单的构建逻辑在崇高的文本，但与持久回购。也许我应该试试geiser

浏览 3提问于2014-05-14得票数 4

3回答

在Windows中关机后维护用户权限？

、

在Windows中，是否有可能在重新启动后维护命令外壳的用户权限？在Linux中，这可以通过创建一个在该用户下运行的文件来实现。有相当于Windows的吗？

浏览 0提问于2012-05-03得票数 1

回答已采纳

1回答

Q学习神经网络何时训练网络

、、

我现在要做的是，当程序在游戏中运行时，如果记录的游戏集数量达到最大值，每次程序移动时，它将从内存中选择一个随机的游戏状态，并使用该游戏状态和奖励进行反向传播。从历史上看，奖励与游戏状态和行为之间的关联是，当一场游戏已经完成，并且每一步的奖励都被计算出来，这意味着每一步的总报酬已经被计算出来，我用来计算奖励的方法是：在这种情况下，伽马值是一个预先确定的值，以减少考虑奖励的金额，并且在游戏状态中的逆位置意味着，如果在一

浏览 0提问于2018-01-13得票数 1

回答已采纳

3回答

苹果PushNotification :需要服务器端功能指南

、、、、

我计划实现推送通知，以便任何事件活动(如新的、更新的、关闭的)都应作为通知发送给用户。一旦用户点击事件通知，相应的事件细节就会根据在iD的PayLoad中传递的事件详细信息来获取。我知道如何设置推送通知(就像我用本地服务器编写的一些示例应用程序一样，在服务器代码中硬编码设备UUID )，但我仍然认为我需要就以下疑点提供专家建议：我是否需要修改注册服务(目前只使用用户I/密码我是否需要将deviceID的映射与已注册的用户ID存储在数据库中(在特定的pushNotifica

浏览 1提问于2014-02-18得票数 0

回答已采纳

2回答

如何插入实时可用的mongocxx文档？

、、、

我通过c++接口将图片插入到mongodb中，如下所示： coll.insert_one(document.view());这有可能吗？

浏览 2提问于2018-01-20得票数 0

1回答

如何设置angular js服务？

、、、、

我正在构建一个管理员工奖励计划的应用程序，我想我应该尝试学习一些我一直听说的新的js框架，所以我决定查看Angular。现在，我希望实际使用过这个框架的人可以帮助我快速构建一个示例。至少我现在是这样设置我的数据库的。账户和交易数据就像是员工可以赚到的奖金的银行账户。员工、帐户和事务位于URI中，如 /accounts /transactions 我已经知道数据绑定和交互是如何工作的，并且我已经能够使用$http服务成功地从我的服务器获取JSON数据，但它正在监视模型的

浏览 5提问于2013-01-25得票数 3

回答已采纳

2回答

如何为麻省理工学院配置SublimeREPL？

、

如何将MIT方案添加到Tools->Sub灰岩menu菜单中？我对“崇高的文本2”并不熟悉。

浏览 2提问于2013-07-05得票数 2

2回答

C如何处理一个人的补结构中的数字0？

、

我的问题是，在一个人的补充架构上，这个异常在C中是如何处理的？C是区分了-0和+0，还是这两种形式都被简单地视为零。如果在测试为零时+0和-0都返回TRUE，那么我想知道如果输入-0作为输入，下面的示例代码将如何计算整数中的设置位数。= 0; b++) return b;由于-0作为一个补码，它的所有位都设置为1，所以-0应该返回任何其他数字中设置的最高位数；然而，这段代码似乎会失败在C<e

浏览 10提问于2017-07-22得票数 3

回答已采纳

1回答

Tensorflow CIFAR10教程:确定训练过程中的历数

、、、、

我刚开始深入学习，从我收集到的信息来看，一个人通常会创建一批数据，一旦所有的训练数据都被使用了(或者说“足够多的”数据)，这个过程就会重复几次(每次迭代都被称为一个时代)。这里只提到它们：我还会问这个问题，因为我有点困惑如<em

浏览 2提问于2017-05-24得票数 0

回答已采纳

2回答

在数据库中设计月度订阅系统的良好做法

、、

我想知道如何在数据库中设计一个月度订阅软件系统。这些系统在互联网上被广泛使用，尽管我找不到很多关于数据库设计的东西。在我的例子中，必须包括这些元素(可能还有一些我忘记了的元素)： ClientPlan (如'basic'/'premium')。每个计划都有月度价格和信用额度(例如:基本计划每月提供30个信用额度，保费计划无限额度credits).Credits是在application.Subscription/

浏览 103提问于2014-05-07得票数 94

回答已采纳

1回答

BASH脚本中的日历月变量

、

我计划在每个月的第一天在cron作业上运行脚本，API调用需要包含开始和结束时间，并且以一种以毫秒为单位的时代格式。毫秒应该可以设置为000，因为它不需要那么具体，但是API需要它。示例： date --date="1 month ago" +"%d%

浏览 2提问于2019-05-17得票数 1

回答已采纳

1回答

如何结合spark和nosql数据库设计实时计费系统

、、、、

我需要一个nosql，它既可以插入额定的cdr，也可以更新cdr中的msisdn当前计费周期的总计。在特定订阅更新费率计划的情况下，对于当前的账单周期，需要重新计算使用该价格计划的所有cdr，并且需要计算所有客户到目前为止的总金额。

浏览 2提问于2015-11-15得票数 1

1回答

$GLOBALS = array();？

简单地将$GLOBALS设置为空数组有什么问题吗？我想扭转register_globals的影响，因为它是打开的，而且一个人不能访问.ini文件，而不是在必要时迭代每个相关的超级全局和未设置的元素，跳过$GLOBALS['_POST']、$GLOBALS我从来没有计划将$GLOBALS数组作为任何独立于作用域的变量来引用，或者在相关的超级全局($_GET、$_POST等)中设置。或将作为相关注册表类的属性存储。那么问题是:取消$GLOBALS['_GET&#

浏览 4提问于2012-05-14得票数 1

回答已采纳

点击加载更多