首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

DeepMind 升级深度强化学习,仅10小时训练16个机器人灵活操纵物体

【新智元导读】DeepMind 研究人员改进深度确定策略梯度算法,在虚拟环境中训练机械臂叠协同完成堆叠积木的任务,每架机械臂的结果都被用于改进核心算法,10个小时训练好 16 台机器人。研究人员表示,他们的方法可以很快就能用于训练真实世界机器人完成精确堆叠的任务。 让机器人相互学习一个最简单的方法就是将所有关于成功和失败的经验都汇总到一起。去年,谷歌大脑展示了他们的协作机械臂研究项目——合作式增强学习让机器人掌握通用技能:一台机械臂学会的东西,可以在所有机械臂之间共享,这样所有的机械臂都能以更快的速度学习、

06

学界 | CoRL 2018最佳系统论文:如此鸡贼的机器手,确定不是人在控制?

与物体进行交互的操作是机器人技术中最大的开放问题之一:在开放的世界环境中智能地与以前没有见过的物体进行交互需要可以泛化的感知、基于视觉的闭环控制和灵巧的操作。强化学习为解决这一问题提供了一个很有前景的途径,目前强化学习方向上的工作能够掌握如击球 [1],开门 [2,3],或投掷 [4] 这样的单个技能。为了满足现实世界中对操作的泛化需求,我们将重点关注离策略算法的可扩展学习,并在具体抓取问题的背景下研究这个问题。虽然抓取限制了操作问题的范围,但它仍然保留了该问题中许多最大的挑战:一个抓取系统应该能够使用真实的感知技术可靠、有效地抓取之前没有见过的物体。因此,它是一个更大的机器人操作问题的缩影,为对泛化和多样化的物体进行交互提供了一个具有挑战性和实际可用的模型。

02

R语言数据抓取实战——RCurl+XML组合与XPath解析

经常有小伙伴儿跟我咨询,在使用R语言做网络数据抓取时,遇到空值和缺失值或者不存在的值,应该怎么办。 因为我们大多数场合从网络抓取的数据都是关系型的,需要字段和记录一一对应,但是html文档的结构千差万别,代码纷繁复杂,很难保证提取出来的数据开始就是严格的关系型,需要做大量的缺失值、不存在内容的判断。 如果原始数据是关系型的,但是你抓取来的是乱序的字段,记录无法一一对应,那么这些数据通常价值不大,今天我以一个小案例(跟昨天案例相同)来演示,如何在网页遍历、循环嵌套中设置逻辑判断,适时的给缺失值、不存在值填充预

08
领券