模拟器：应用型深度强化学习的关键是训练环境

文章来源：企鹅号 - 德鑫之言

深度强化学习（DRL）是目前的AI中最激动人心的领域之一。现在还处于早期阶段，但有一些服务水平不高的市场已经可以应用今天的技术。不少的企业都想要自动化或优化工业系统和流程的效率（包括制造业、能源、暖通空调、机器人和供应链系统）。

但是，构建应用DRL的一个关键要素是：模拟环境。在这篇文章中，我们会告诉你模拟器可以做什么，为什么需要它们，以及如何使用Bonsai平台+模拟器来解决真正的业务问题。

什么是模拟？

让我们从定义模拟这个术语开始，因为它是一个非常抽象的概念。模拟可以从飞行模拟器到模拟整个城市的电气和机械部件或模型。

“模拟是随着时间的推移模拟现实世界的过程或系统运行的模拟。”

本质上，有一些系统具有许多输入，对这些输入应用一些数学函数，这些数据可以是可视化的形式（如机器人模拟器）或纯数据（如能源模拟器，EnergyPlus）。

计算机科学家已经使用了相当长的一段时间，可以追溯到20世纪50年代末。在过去的20年中，计算能力和大量数据的增加使模拟在保真度和价值上有了显著提高。许多领先的工业模拟几乎完全匹配物理现实或业务流程。

模拟对数字游戏产业的发展也产生了巨大的影响。游戏玩家需要更加身临其境的体验，需要虚拟世界中的高保真图形和更真实的物品行为。游戏中间件公司在过去30年中开发并提供了强大的3D和2D物理引擎。

工业模拟

通过利用这些软件产品和各种数学库，企业能够模拟具有大量组件的复杂系统，让主题专家（SME）在现实世界中构建它们之前对系统进行测试和评估。用例包括数字双胞胎、机器人、调整小型和大型工业机器、多种电气和物理系统、优化供应链等业务流程。

虽然存在大量基于单个模型的定制和非常专业的模拟，但是还有许多模拟器平台能够运行和模拟基本无限数量的模型。例如MATLAB Simulink（工程和制造），ANSYS（工程），AnyLogic（供应链），Gazebo（机器人），TRNSYS（能源）等等。

模拟+深度强化学习

强化学习（RL）被定义为：

“机器学习领域涉及软件代理应该如何在一个环境中采取行动来最大化累积奖励”。

换句话说，RL训练代理学习如何行动的策略，通过在给定的环境中尝试大量的操作，优化一个确定的奖励函数。深度强化学习（DRL）遵循相同的方法，使用深度神经网络来表示策略。

强化学习需要大量的“试错”事件或与环境的相互作用，来学习一个好的策略。因此，模拟器需要以经济有效的方式取得成果。

想象一下，试着教一个机器人走路，通过观察一个真实的物理机器人，尝试过程中，摔倒10万次，然后才能成功并持续走路。或者训练一个人工智能来玩棋盘游戏，实际上是在成千上万的游戏中扮演人类的竞争对手。模拟器允许这些事件在数字世界中发生，训练AI来充分发挥其潜力，同时节省一些时间和金钱。

一些仿真模型环境，其中一个代理可以采取影响环境状态的连续性行为;其他仿真模型设置，其中一个离散输入创建不同的输出。这两种类型的模拟都可以用于强化学习。

模拟+深度强化学习+Bonsai

Bonsai是一个人工智能平台，允许企业将控制程序编入工业系统，也是使用深度强化学习对工业系统进行编程控制的一个商用产品。

使用Bonsai平台，企业可以建立一个BRAIN（一个AI模型），连接他们选择的模拟器，并在该环境中训练BRAIN以学习所需的行为。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货