带规划的Dyna-Q与n步Q-learning

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我正在阅读Sutton和Barto的强化学习，对于Dyna-Q的一个例子，他们使用了一个迷宫问题。算例表明，在n=50步规划下，算法仅需3集即可达到最优路径。这是对50步Q学习的改进吗？看起来你真的只是在每集运行一堆50步的Q学习算法，所以说它在3集内找到最优路径是误导的。另外，我想最大的问题是，当你没有环境模型时，我认为Dyna-Q是有用的

浏览 37提问于2019-12-20得票数 0

回答已采纳

1回答

用线性规划规划m台机器上的n个作业

、、、、

我听说你可以用线性规划来解决计划问题。我真的不明白如何做到这一点，因为线性规划是最优的，而大规模规划(例如，在m台机器上计划n个作业)具有指数级的难度。那么，例如，我如何使用线性规划解决100个作业和10台机器的问题？你能给我一些解释或进一步阅读吗？

浏览 3提问于2016-11-09得票数 0

2回答

“换硬币”的方法和“爬楼梯的方法的数目”有什么区别？

、

我遇到了两个动态规划问题。其中一个问题是解决这个问题的动态规划方法如下。If C(n) is number of ways of climbing the staircase, then 当我要思考<e

浏览 4提问于2014-01-02得票数 7

回答已采纳

1回答

朱莉娅的一维随机游动的可视化

、

我想知道如何规划1000名“步行者”，每个人“走”100步。下面是一个“步行者”步行10步的代码。function walk(N, init::Int=0) for t in 1:N push

浏览 0提问于2021-06-23得票数 3

回答已采纳

1回答

一次采取1、2或3步的第n步的组合数‽

、、、、

声明如下：因此，对于示例来说，有多少种方法可以达到第三步。如图所示: 1,1,1，2,1 编辑:以下@Saurav

浏览 3提问于2019-12-26得票数 0

回答已采纳

2回答

从ERP保存到OneDrive

、

我们希望将文档保存到单独的OneDrive文件夹。计划:第一步:客户概述应直接保存到OneDrive，而不是FTP文件夹。第二步:每个销售人员都有自己的OneDrive帐户，因此应该使用用户参数等将其保存到自己<

浏览 2提问于2016-03-31得票数 0

2回答

最小到达点成本

、

给出了正整数n, a, b, p[1], p[2], p[3] (全<= 10^9)。假设我们站在x=0位置，我们想到达点n，我们只能向右移动。任务是找到最小的成本，如果我们可以使用这些移动。移动次数不受限制。我提出的想法是动态规划和三个变量的线性方程组。但还是解决不了问题。 UPD:假设我们也有独立于T (T <= 50)的查询。

浏览 3提问于2022-04-24得票数 2

3回答

地图与动态规划更新

、、

给我的问题是 if n < 0 { return 1 } else if

浏览 4提问于2014-03-31得票数 0

回答已采纳

1回答

达到N步的方法数

、、、

因此，我做了一个简单的动态规划问题，关于到达n第四步，而一次只能执行1到2个步骤。我知道答案基本上是fibonacci序列，答案是:到达n-2的步骤#+到达n-1的步骤的步骤#。T(n) = T(n-1) + T(n-2); 然而，我想得越多，我就越不确定。在结束的时候不应该有额外的步骤来达到n的第四步

浏览 0提问于2017-11-07得票数 1

回答已采纳

5回答

具有同步功能的iPhone离线应用程序

、、、

我正在考虑构建一个离线和在线一样好用的应用程序。由于应用程序在脱机状态下无法与服务器通信，因此需要进行某种级别的同步。在为您的iPhone规划带同步的离线操作时，有哪些好工具值得阅读并开始考虑？与苹果已经提供的工具相比，我必须自己创建哪些工具来帮助解决这个特定的问题？

浏览 1提问于2009-03-27得票数 28

回答已采纳

3回答

有没有带表函数的.NET和Java库？

、

有没有带表函数的java或.net库？T3 = f(T1, T2)，其中T1、T2和T3是表。例如，我们从线性代数中知道的矩阵乘法是一个矩阵函数：同样，会计或财务规划中经常使用的分布函数是典型的表函数。例如，将每个部门的成本进一步分配给团队。例如，SAP的业务规划工具提供了像分配&

浏览 0提问于2012-12-12得票数 3

2回答

爬步次数的动态规划

、、、

问题是使用动态规划来编写一个函数，用于爬升N个步骤的方法的数量。考虑到一次只能爬一步或两步。难道它不应该比普通的更有效吗？我在下面附加了DP代

浏览 3提问于2018-02-03得票数 1

回答已采纳

1回答

用迭代法求解切杆问题(无DP)的递推关系

、、、

我正在阅读CLRS一书中的动态编程一章。在棒材切割问题中，当我们不使用动态规划(基本情况T(0) = 1)时，是得到的。解直接给出为T(n) = 2^n。我可以使用归纳法验证解决方案是正确的。但是我似乎想不出如何使用迭代(plug and chug)方法从给定的递归一步一步地得出这个解。在这件事上，我真的很感谢你的帮助。

浏览 10提问于2021-05-19得票数 0

回答已采纳

1回答

泛函规划中的有效矩阵

、、、

我有一个关于函数规划中矩阵的有效表示的问题。 //矩阵

浏览 2提问于2018-01-08得票数 2

回答已采纳

3回答

Q学习vs动态编程

、、、

经典的Q学习算法，使用查找表(而不是函数近似)，等同于动态编程吗？

浏览 5提问于2016-08-17得票数 11

回答已采纳

1回答

这个程序有多复杂？

、、

我们得到了起重机的最大起重能力，以及每块石头的重量。由于这是一个小型起重机，我们不能放置超过2块石头(任何可能的大小)在同一时间，否则它将扰乱起重机的平衡。输入:第一行输入给T，测试用例的数量。对于每个测试用例，第一行给出了起重机的最大起重能力M。每个测试用例下一行的第一个整数N给出了石头的数目，后面跟着N个数，指定了单个石头X的权重。制约因素：1 <=

浏览 2提问于2015-02-06得票数 4

回答已采纳

2回答

动态规划:设计一个O(n log )时间的算法

、、、

请考虑以下问题：通过使用动态规划，我们将检查每个演示文稿，存储其开始时间、完成时间、值，每次一个(并比较是否

浏览 1提问于2015-06-23得票数 0

回答已采纳

1回答

DQN使用非策略RL，以便从通过遵循任何策略收集的经验数据中学习最优策略，例如观察专家、先前的非最优策略等。体验是以下形式的数据集合： (s1、a1、r2、s2) 这里的r2是在执行a1之后立即收到的实际奖励。这些经验用于设置以下形式的监督学习示例：净投入：(s1，a1)，净目标: r2 +γ*argmax(a，Q(s2，a) 可以通过使用带有资格跟踪的lambda来计算r2吗？我猜它不能，因为这将使r2依赖于用于生成体验的策略，而这不是正在学习<e

浏览 0提问于2017-12-12得票数 1

1回答

数据结构存储一步一步的指南

、、、

我试图在Javascript中建立一步一步的指南(想想任何IKEA指南)，其中每一步都可以链接到一个或多个后续步骤，2.一个步骤可以对前面的步骤有0或n个依赖项，3.始终有最后一个步骤。就像这样： / \ \ /首先想到的是有向图的结构，但是由于这个图的唯一性，所有节点都指向“前进”，所以我想知道是否有更好的</e

浏览 0提问于2016-09-26得票数 0

2回答

如何将PDF转换为JSON/EXCEL/WORD文件？

、、、、

我需要从pdf文件中获取数据及其标头，以便进一步与DB数据进行比较我试着使用pdfbox，google vision ocr，itext，但是所有的库都没有结构和头文件。示例: Date\nNumber\nStatus\n12\12\2020\n442334\delivered 我会尝试将pdf转换为excel/word并从中获取数据，但为了实现这一点，我需要读取pdf如何获取带headers的数据？

浏览 54提问于2020-04-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云