这个专利告诉我们机器人如何选择要执行的行为

文章来源：企鹅号 - 悲凉扯果汁

今天我们要介绍的是DeepMind的一项基础专利申请—用于为机器人智能体选择要执行行为的神经网络。

文｜段志伟

校对｜诗诗

图源｜网络

集微网消息，众所周知，DeepMind作为Google旗下一家AI明星公司，它申请过许多大大小小的专利，比如用神经网络生成音频、用卷积神经网络处理序列、强化学习系统等等。

今天我们要介绍的是DeepMind的一项基础专利申请—用于为机器人智能体选择要执行行为的神经网络。

该专利涉及选择由强化学习代理执行的动作，强化学习代理通过接收表征环境当前状态的观察结果与环境交互，并作为响应，执行动作，而DeepMind的强化学习系统使用神经网络来选择代理响应于接收任何给定观察而执行的动作，图1所示为强化学习系统。（专利号：WO2018071392）

神经网络被配置为接收观察，该观察表征由机器人代理交互的现实世界环境的当前状态以执行机器人任务并且处理该观察以生成定义要由其执行的动作的策略输出。

神经网络系统包括一系列深度神经网络（DNN）。DNN的序列包括经过模拟训练的DNN，该DNN已经训练过模拟版本的机器人代理与模拟版本的真实环境，以执行机器人任务的模拟版本。

图2所示为神经网络系统的示例架构。

模拟训练的DNN包括第一个多个索引层，且其被配置为接收观察并通过索引层中的每个层处理观察，为该层中的每个层生成相应的层输出。

DNN的序列还包括第一个由机器人训练的DNN。其在机器人代理与现实世界环境的交互上训练以执行机器人任务。

第一个由机器人训练的DNN包括第二个多个索引层。第一机器人训练的DNN被配置为接收观察并且通过第二个多个索引层中的每个层处理观察以生成策略输出，并且第二个多个索引层中的一个或多个层均被配置接收：由第一机器人训练的DNN的前一层生成的层输出，以及由模拟训练的DNN的前一层生成的层输出作为输入。

图3所示为用于训练神经网络系统的示例过程的流程图。

图4是用于选择代理响应于观察而要执行的动作的示例过程的流程图。

深度强化学习算法太慢而无法在真实世界的机器人上实现高性能，但可以在模拟环境中进行演示。通过使用神经网络系统来桥接现实差距并将已知策略从模拟转移到现实世界，可以使用比现有方法更少的计算资源更有效地确定机器人代理的动作选择策略。

END

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货