用户7703613

LV1
发表了文章

简单就是更好!面向低资源槽填充和意图分类的轻量级数据增强

当有相当大的域内训练数据可用时,基于神经的模型在槽填充和意图分类方面取得了突出的性能。然而,随着新领域的频繁添加,创建大量数据的成本也很高。我们展示了轻量级扩充...

用户7703613
发表了文章

机器人学深度学习的微分物理引擎

机器人学的一个重要领域是控制器的优化。目前,机器人在这一优化过程中常被视为一个黑箱,这就是无导数优化方法如进化算法或强化学习无处不在的原因。当使用基于梯度的方法...

用户7703613
发表了文章

昆诺阿藜:一个你推断的标准化的Q函数

提出了一种在相对熵正则化强化学习环境下学习近似作用值软Q函数的算法,对于该算法,最优改进策略可以以封闭形式恢复。我们利用标准化流程的最新进展,将政策参数化,同时...

用户7703613
发表了文章

目标导向规划的分治蒙特卡罗树搜索

用于顺序决策的标准规划器(包括蒙特卡罗规划、树搜索、动态规划等)。)受到隐含的顺序计划假设的约束:计划构建的顺序与执行的顺序相同。对于这类目标导向强化学习问题,...

用户7703613
发表了文章

机器人混合控制的连续-离散强化学习

许多实际控制问题既涉及离散决策变量(如控制模式的选择、档位切换或数字输出),也涉及连续决策变量(如速度设定值、控制增益或模拟输出)。然而,当定义相应的最优控制或...

用户7703613
发表了文章

价值驱动的事后分析模型

价值评估是强化学习范式的重要组成部分。如何有效地从数据中学习预测值的问题是RL社区研究的主要问题之一,不同的方法以不同的方式利用问题域的结构。模型学习可以利用观...

用户7703613
发表了文章

继续做有效的事情:离线强化学习的行为建模优先

非策略强化学习算法有望应用于只有固定数据集(批次)的环境交互且无法获得新经验的环境。这一特性使得这些算法对现实世界的问题如机器人控制很有吸引力。然而,在实践中,...

用户7703613
发表了文章

不插电的RL:离线强化学习的基准

强化学习的离线方法有可能帮助弥合强化学习研究和现实应用之间的差距。它们使得从离线数据集学习策略成为可能,从而克服了现实世界中与在线数据收集相关的问题,包括成本、...

用户7703613
发表了文章

批评家正则化回归

离线强化学习,也称为批量强化学习,提供了在没有在线环境交互的情况下,从大量预先记录的数据集进行策略优化的前景。它解决了与数据收集成本和安全性相关的挑战,这两个问...

用户7703613
发表了文章

走向核心技能的一般和自主学习:一个关于运动的案例研究

现代强化学习算法有望直接从原始感觉输入中解决困难的运动控制问题。它们之所以吸引人,部分是因为它们代表了一种通用的方法,即使对于人类专家来说很困难或很昂贵,它们也...

用户7703613
发表了文章

作为发散最小化的动作和感知

我们引入了智能代理的行为和感知的统一目标。通过扩展表征学习和控制,我们最小化了世界和目标分布之间的联合差异。直觉上,这样的代理人利用感知使他们的信念与世界一致,...

用户7703613
发表了文章

SEDRo:开发机器人的模拟环境

即使在特定于应用程序的模型方面取得了令人印象深刻的进展,我们仍然缺乏关于如何构建一个能够以类似人类的方式学习并完成多项任务的模型的知识。为了以一种类似人类的方式...

用户7703613
加入了专栏

arxiv.org翻译专栏

1.7K 文章86 关注者
订阅了专栏

云加头条

云头条,早报资讯。云+社区的管理动态和活动公告。

342 文章1.4M 关注者
订阅了专栏

云加推荐

95 文章1.4M 关注者

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券