腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
带
规划
的
Dyna-Q
与
n
步
Q-learning
、
我正在阅读Sutton和Barto
的
强化学习,对于
Dyna-Q
的
一个例子,他们使用了一个迷宫问题。算例表明,在
n
=50
步
规划
下,算法仅需3集即可达到最优路径。 这是对50
步
Q学习
的
改进吗?看起来你真的只是在每集运行一堆50
步
的
Q学习算法,所以说它在3集内找到最优路径是误导
的
。 另外,我想最大
的
问题是,当你没有环境模型时,我认为
Dyna-Q
是有用
的
浏览 37
提问于2019-12-20
得票数 0
回答已采纳
1
回答
用线性
规划
规划
m台机器上
的
n
个作业
、
、
、
、
我听说你可以用线性
规划
来解决计划问题。我真的不明白如何做到这一点,因为线性
规划
是最优
的
,而大规模
规划
(例如,在m台机器上计划
n
个作业)具有指数级
的
难度。那么,例如,我如何使用线性
规划
解决100个作业和10台机器
的
问题?你能给我一些解释或进一
步
阅读吗?
浏览 3
提问于2016-11-09
得票数 0
2
回答
“换硬币”
的
方法和“爬楼梯
的
方法
的
数目”有什么区别?
、
我遇到了两个动态
规划
问题。其中一个问题是解决这个问题
的
动态
规划
方法如下。If C(
n
) is number of ways of climbing the staircase, then 当我要思考<e
浏览 4
提问于2014-01-02
得票数 7
回答已采纳
1
回答
朱莉娅
的
一维随机游动
的
可视化
、
我想知道如何
规划
1000名“步行者”,每个人“走”100
步
。下面是一个“步行者”步行10
步
的
代码。function walk(
N
, init::Int=0) for t in 1:
N
push
浏览 0
提问于2021-06-23
得票数 3
回答已采纳
1
回答
一次采取1、2或3
步
的
第
n
步
的
组合数‽
、
、
、
、
声明如下: 因此,对于示例来说,有多少种方法可以达到第三
步
。如图所示: 1,1,1,2,1 编辑:以下@Saurav
浏览 3
提问于2019-12-26
得票数 0
回答已采纳
2
回答
从ERP保存到OneDrive
、
我们希望将文档保存到单独
的
OneDrive文件夹。计划:第一
步
:客户概述应直接保存到OneDrive,而不是FTP文件夹。第二
步
:每个销售人员都有自己
的
OneDrive帐户,因此应该使用用户参数等将其保存到自己<
浏览 2
提问于2016-03-31
得票数 0
2
回答
最小到达点成本
、
给出了正整数
n
, a, b, p[1], p[2], p[3] (全<= 10^9)。假设我们站在x=0位置,我们想到达点
n
,我们只能向右移动。任务是找到最小
的
成本,如果我们可以使用这些移动。移动次数不受限制。我提出
的
想法是动态
规划
和三个变量
的
线性方程组。但还是解决不了问题。 UPD:假设我们也有独立于T (T <= 50)
的
查询。
浏览 3
提问于2022-04-24
得票数 2
3
回答
地图
与
动态
规划
更新
、
、
给我
的
问题是 if
n
< 0 { return 1 } else if
浏览 4
提问于2014-03-31
得票数 0
回答已采纳
1
回答
达到
N
步
的
方法数
、
、
、
因此,我做了一个简单
的
动态
规划
问题,关于到达
n
第四
步
,而一次只能执行1到2个步骤。我知道答案基本上是fibonacci序列,答案是:到达
n
-2
的
步骤#+到达
n
-1
的
步骤
的
步骤#。T(
n
) = T(
n
-1) + T(
n
-2); 然而,我想得越多,我就越不确定。在结束
的
时候不应该有额外
的
步骤来达到
n
的
第四
步
浏览 0
提问于2017-11-07
得票数 1
回答已采纳
5
回答
具有同步功能
的
iPhone离线应用程序
、
、
、
我正在考虑构建一个离线和在线一样好用
的
应用程序。由于应用程序在脱机状态下无法
与
服务器通信,因此需要进行某种级别的同步。 在为您
的
iPhone
规划
带
同步
的
离线操作时,有哪些好工具值得阅读并开始考虑?
与
苹果已经提供
的
工具相比,我必须自己创建哪些工具来帮助解决这个特定
的
问题?
浏览 1
提问于2009-03-27
得票数 28
回答已采纳
3
回答
有没有
带
表函数
的
.NET和Java库?
、
有没有
带
表函数
的
java或.net库?T3 = f(T1, T2),其中T1、T2和T3是表。例如,我们从线性代数中知道
的
矩阵乘法是一个矩阵函数:同样,会计或财务
规划
中经常使用
的
分布函数是典型
的
表函数。例如,将每个部门
的
成本进一
步
分配给团队。例如,SAP
的
业务
规划
工具提供了像分配&
浏览 0
提问于2012-12-12
得票数 3
2
回答
爬
步
次数
的
动态
规划
、
、
、
问题是使用动态
规划
来编写一个函数,用于爬升
N
个步骤
的
方法
的
数量。考虑到一次只能爬一
步
或两
步
。难道它不应该比普通
的
更有效吗?我在下面附加了DP代
浏览 3
提问于2018-02-03
得票数 1
回答已采纳
1
回答
用迭代法求解切杆问题(无DP)
的
递推关系
、
、
、
我正在阅读CLRS一书中
的
动态编程一章。在棒材切割问题中,当我们不使用动态
规划
(基本情况T(0) = 1)时,是得到
的
。解直接给出为T(
n
) = 2^
n
。 我可以使用归纳法验证解决方案是正确
的
。但是我似乎想不出如何使用迭代(plug and chug)方法从给定
的
递归一
步
一
步
地得出这个解。在这件事上,我真的很感谢你
的
帮助。
浏览 10
提问于2021-05-19
得票数 0
回答已采纳
1
回答
泛函
规划
中
的
有效矩阵
、
、
、
我有一个关于函数
规划
中矩阵
的
有效表示
的
问题。 //矩阵
浏览 2
提问于2018-01-08
得票数 2
回答已采纳
3
回答
Q学习vs动态编程
、
、
、
经典
的
Q学习算法,使用查找表(而不是函数近似),等同于动态编程吗?
浏览 5
提问于2016-08-17
得票数 11
回答已采纳
1
回答
这个程序有多复杂?
、
、
我们得到了起重机
的
最大起重能力,以及每块石头
的
重量。由于这是一个小型起重机,我们不能放置超过2块石头(任何可能
的
大小)在同一时间,否则它将扰乱起重机
的
平衡。输入:第一行输入给T,测试用例
的
数量。对于每个测试用例,第一行给出了起重机
的
最大起重能力M。每个测试用例下一行
的
第一个整数
N
给出了石头
的
数目,后面跟着
N
个数,指定了单个石头X
的
权重。制约因素:1 <=
浏览 2
提问于2015-02-06
得票数 4
回答已采纳
2
回答
动态
规划
:设计一个O(
n
log )时间
的
算法
、
、
、
请考虑以下问题:通过使用动态
规划
,我们将检查每个演示文稿,存储其开始时间、完成时间、值,每次一个(并比较是否
浏览 1
提问于2015-06-23
得票数 0
回答已采纳
1
回答
lambda可以
与
非策略强化学习和经验回放一起使用吗?
DQN使用非策略RL,以便从通过遵循任何策略收集
的
经验数据中学习最优策略,例如观察专家、先前
的
非最优策略等。体验是以下形式
的
数据集合: (s1、a1、r2、s2) 这里
的
r2是在执行a1之后立即收到
的
实际奖励。这些经验用于设置以下形式
的
监督学习示例: 净投入:(s1,a1),净目标: r2 +γ*argmax(a,Q(s2,a) 可以通过使用带有资格跟踪
的
lambda来计算r2吗?我猜它不能,因为这将使r2依赖于用于生成体验
的
策略,而这不是正在学习<e
浏览 0
提问于2017-12-12
得票数 1
1
回答
数据结构存储一
步
一
步
的
指南
、
、
、
我试图在Javascript中建立一
步
一
步
的
指南(想想任何IKEA指南),其中每一
步
都可以链接到一个或多个后续步骤,2.一个步骤可以对前面的步骤有0或
n
个依赖项,3.始终有最后一个步骤。就像这样: / \ \ /首先想到
的
是有向图
的
结构,但是由于这个图
的
唯一性,所有节点都指向“前进”,所以我想知道是否有更好
的</e
浏览 0
提问于2016-09-26
得票数 0
2
回答
如何将PDF转换为JSON/EXCEL/WORD文件?
、
、
、
、
我需要从pdf文件中获取数据及其标头,以便进一
步
与
DB数据进行比较 我试着使用pdfbox,google vision ocr,itext,但是所有的库都没有结构和头文件。示例: Date\nNumber\nStatus\
n
12\12\2020\
n
442334\delivered 我会尝试将pdf转换为excel/word并从中获取数据,但为了实现这一点,我需要读取pdf如何获取
带
headers
的
数据?
浏览 54
提问于2020-04-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
人工智能–TD Learning算法
卡内基梅隆居然是这样教强化学习的?
俄罗斯针对欧洲大型互联网公司Yandex N.V.与美国共享出行公司优步(UBER)的交易设置1.5亿美元/日的购汇限制。(国际
人工智能–Q Learning算法
机器学习方法篇-时序差分方法
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券