当最好的AI算法遇上真实机器人,结果…哈哈哈哈哈哈哈哈哈

Lucille 发自 人类办公室

NEXTTECH 报道 | 公众号 TechMix

电子游戏开始普及的年代,诞生的除了叱咤风云carry战场的大腿,还有一堆眼神不好人还手残的老年型玩家。

一套风骚操作,依然深陷万年鱼塘。别怕,你们的大腿来了~

RL 能干啥?

看了那么多会下象棋、玩扑克、打电游的 AI,以至于我们对 AI 总有种不切实际的幻想。

所有厉害的AI 公司、实验室都会忽悠你:他们的高端游戏机器人将有朝一日飞入寻常百姓家,它们会带你装B带你飞。管你是 DOTA,CSGO 还是啥,一路上分不是梦。

更重要的是,除了让你在游戏中变成强力党,它们的新算法还能被用到生活的各个方面——研发新型药物,控制机器人,甚至对电脑进行谈判教学。

别问,问就是一个字,牛~

但实际上呢?他们向你描绘的美好场景都是浮云,谁也不知道这些先进的 RL(加强学习) 算法,到了其他领域,还能有几分靠谱。

因此,一家美国有着同样雄心壮志的创业公司 Kindred.AI 打算替我们做个测试,把这些新设想付诸测试。

他们从机器人下手,把这些 RL 算法移植到气人身上,看看它们的表现如何

结果,emmmm,一言难尽…机器人时不时出现过热和失败的情况,甚至还会犯傻把电缆缠成一团。

我们先说说这个不明觉厉的 RL 算法。

RL,即 Reinforcement Learning,是“强化学习”的简称,它是一种流行的人工智能学习方法。

简单来说,智能体以“试错”的方式进行学习,通过与环境进行交互来获得奖赏指导。只要做出正确的选择,就能得到相应奖励。

继续拿游戏打比方。

在经典射击游戏 Doom 中,智能体只要捡到枪支弹药就能得分,但如果挨了枪子儿,才热乎的分就要被扣掉了。时日一长,智能体玩起 Doom 来就越发熟练。快速剿灭敌人,并埋头专注捡装备20年。

四大算法花落谁家

Kindred.AI 的研究人员在机器人身上测试了四种 RL 算法,这些机器人分别受命去执行不同的任务。

四种算法分别是:“深度确定性策略梯度(DDPG)”,“Q-learning算法”,“近端策略优化(PPO)算法”和“置信域策略优化(TRPO)算法”。

测试过程中的小白鼠,是 UR5 和 Create 2 机器人。其中,UR5 是一台灵活轻巧的协作式工业机械臂,执行器型号是 Dynamixel MX-64AT。而 Create 2 是一台扫地机器人。

两个机器人的任务是追踪物体和对接充电站。

研究人员对两台机器人分别进行了不同算法的测试。

整个测试过程是个劳民伤财的浩大的工程,每个算法进行 450 项独立实验,用时要超过 950 小时。

所有结果和代码都发布在了 arXiv 和 GitHub 上。可以翻到最后找链接~

直接说结果,DDPG 算法惨兮兮垫底,TRPO 则美滋滋登顶。

DDPG 的成功秘诀在于它算法的鲁棒性。

鲁棒性这词可能有点生涩,具体来说,就是 AI 在面对外界超参数变化时的灵敏度。在研发者设置的特定条件下,深度学习系统都能良好运行,这些超参数都经过了精心调整,用于帮助机器从数据中学习模式。

烦skr人的超参数

其实在实验室里,超参数灵敏度并没那么关键。你可以尝试一堆数值,然后选结果最佳的那个。

但一旦机器人走出实验室这个安全区,开始到社会上闯荡,超参数的选择就变得至关重要了。

假如有一天,我们要用机器学习模型实时操控驾驶无人车,算法上一个小小的超参数错误,就可以酿成车毁人亡的惨剧。

再往细点说,限速标志上的发射光就可能晃瞎摄像头,傻乎乎的无人驾驶车可能根本不知道要减速慢行。

从安全的角度考虑,超参数的选择甚至比算法本身的影响更大。这也意味着在大多数情况下,使用控制器对机器人预先编程的标准方法其实更为有效。但RL 算法也并非没有用武之地。

Kindred.AI 公司 Mahmood 表示,在脚本或工程解决方案尚不明确或暂不可行的情况下,表现优异的脚本程序就体现出自身优势了。

比如说,若要学习在动态情境中控制并操纵任意物体,脚本就需要设想各种合理的场景,并能够对其作出解释。

RL算法宝宝:我的人生才刚刚起步

元老级别的脚本程序是以数十年的科学技术和工程进步为基础的。

而初出茅庐的 RL 算法人生经验还是一张白纸,只能算个萌新。它对这些任务一无所知,解决方案也是在几小时内才学会的。

想要赶上脚本的步伐,RL 算法还要迈动小短腿追上一会儿。

同时,机器人的训练过程中还出现了硬件方面的冰晶。RL 算法鼓励智能体或机器人去探索自己周边的环境,但经常在还没来得及学习特定任务时,它们就出了各种各样的问题,浪费了之前的进步。

傻归傻,Mahmood 还是对 RL 的前景持乐观态度。他坚信,当 RL 算法的表现与传统算法旗鼓相当的时候,将迎来自己的春天,比起人类专家编写的脚本,RL 算法将更具成本效益。

它与机器人技术的一些用例并无太多差异。在他设想中,用不了多久就能看到一些基于当前算法的应用程序啦。

到那时,人在家中坐,五百强天上来,嘿嘿嘿…(一位青铜玩家流着口水笑醒)

论文及代码地址:

arXiv: https://arxiv.org/pdf/1809.07731.pdf

GitHub: https://github.com/kindredresearch/SenseAct

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181012A26IRC00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券