文章/答案/技术大牛

发布

当最好的AI算法遇上真实机器人，结果…哈哈哈哈哈哈哈哈哈

文章来源：企鹅号 - 科技MIX

Lucille 发自人类办公室

NEXTTECH 报道 | 公众号 TechMix

电子游戏开始普及的年代，诞生的除了叱咤风云carry战场的大腿，还有一堆眼神不好人还手残的老年型玩家。

一套风骚操作，依然深陷万年鱼塘。别怕，你们的大腿来了~

RL 能干啥？

看了那么多会下象棋、玩扑克、打电游的 AI，以至于我们对 AI 总有种不切实际的幻想。

所有厉害的AI 公司、实验室都会忽悠你：他们的高端游戏机器人将有朝一日飞入寻常百姓家，它们会带你装B带你飞。管你是 DOTA，CSGO 还是啥，一路上分不是梦。

更重要的是，除了让你在游戏中变成强力党，它们的新算法还能被用到生活的各个方面——研发新型药物，控制机器人，甚至对电脑进行谈判教学。

别问，问就是一个字，牛~

但实际上呢？他们向你描绘的美好场景都是浮云，谁也不知道这些先进的 RL（加强学习）算法，到了其他领域，还能有几分靠谱。

因此，一家美国有着同样雄心壮志的创业公司 Kindred.AI 打算替我们做个测试，把这些新设想付诸测试。

他们从机器人下手，把这些 RL 算法移植到气人身上，看看它们的表现如何。

结果，emmmm，一言难尽…机器人时不时出现过热和失败的情况，甚至还会犯傻把电缆缠成一团。

我们先说说这个不明觉厉的 RL 算法。

RL，即 Reinforcement Learning，是“强化学习”的简称，它是一种流行的人工智能学习方法。

简单来说，智能体以“试错”的方式进行学习，通过与环境进行交互来获得奖赏指导。只要做出正确的选择，就能得到相应奖励。

继续拿游戏打比方。

在经典射击游戏 Doom 中，智能体只要捡到枪支弹药就能得分，但如果挨了枪子儿，才热乎的分就要被扣掉了。时日一长，智能体玩起 Doom 来就越发熟练。快速剿灭敌人，并埋头专注捡装备20年。

四大算法花落谁家

Kindred.AI 的研究人员在机器人身上测试了四种 RL 算法，这些机器人分别受命去执行不同的任务。

四种算法分别是：“深度确定性策略梯度（DDPG）”，“Q-learning算法”，“近端策略优化（PPO）算法”和“置信域策略优化（TRPO）算法”。

测试过程中的小白鼠，是 UR5 和 Create 2 机器人。其中，UR5 是一台灵活轻巧的协作式工业机械臂，执行器型号是 Dynamixel MX-64AT。而 Create 2 是一台扫地机器人。

两个机器人的任务是追踪物体和对接充电站。

研究人员对两台机器人分别进行了不同算法的测试。

整个测试过程是个劳民伤财的浩大的工程，每个算法进行 450 项独立实验，用时要超过 950 小时。

所有结果和代码都发布在了 arXiv 和 GitHub 上。可以翻到最后找链接~

直接说结果，DDPG 算法惨兮兮垫底，TRPO 则美滋滋登顶。

DDPG 的成功秘诀在于它算法的鲁棒性。

鲁棒性这词可能有点生涩，具体来说，就是 AI 在面对外界超参数变化时的灵敏度。在研发者设置的特定条件下，深度学习系统都能良好运行，这些超参数都经过了精心调整，用于帮助机器从数据中学习模式。

烦skr人的超参数

其实在实验室里，超参数灵敏度并没那么关键。你可以尝试一堆数值，然后选结果最佳的那个。

但一旦机器人走出实验室这个安全区，开始到社会上闯荡，超参数的选择就变得至关重要了。

假如有一天，我们要用机器学习模型实时操控驾驶无人车，算法上一个小小的超参数错误，就可以酿成车毁人亡的惨剧。

再往细点说，限速标志上的发射光就可能晃瞎摄像头，傻乎乎的无人驾驶车可能根本不知道要减速慢行。

从安全的角度考虑，超参数的选择甚至比算法本身的影响更大。这也意味着在大多数情况下，使用控制器对机器人预先编程的标准方法其实更为有效。但RL 算法也并非没有用武之地。

Kindred.AI 公司 Mahmood 表示，在脚本或工程解决方案尚不明确或暂不可行的情况下，表现优异的脚本程序就体现出自身优势了。

比如说，若要学习在动态情境中控制并操纵任意物体，脚本就需要设想各种合理的场景，并能够对其作出解释。

RL算法宝宝：我的人生才刚刚起步

元老级别的脚本程序是以数十年的科学技术和工程进步为基础的。

而初出茅庐的 RL 算法人生经验还是一张白纸，只能算个萌新。它对这些任务一无所知，解决方案也是在几小时内才学会的。

想要赶上脚本的步伐，RL 算法还要迈动小短腿追上一会儿。

同时，机器人的训练过程中还出现了硬件方面的冰晶。RL 算法鼓励智能体或机器人去探索自己周边的环境，但经常在还没来得及学习特定任务时，它们就出了各种各样的问题，浪费了之前的进步。

傻归傻，Mahmood 还是对 RL 的前景持乐观态度。他坚信，当 RL 算法的表现与传统算法旗鼓相当的时候，将迎来自己的春天，比起人类专家编写的脚本，RL 算法将更具成本效益。

它与机器人技术的一些用例并无太多差异。在他设想中，用不了多久就能看到一些基于当前算法的应用程序啦。

到那时，人在家中坐，五百强天上来，嘿嘿嘿…（一位青铜玩家流着口水笑醒）

论文及代码地址：

arXiv: https://arxiv.org/pdf/1809.07731.pdf

GitHub: https://github.com/kindredresearch/SenseAct

发表于: 2018-10-122018-10-12 22:30:00
原文链接：https://kuaibao.qq.com/s/20181012A26IRC00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

当最好的AI算法遇上真实机器人，结果…哈哈哈哈哈哈哈哈哈

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐