NeoRL: 接近真实世界的离线强化学习基准

深度强化学习实验室

发布于 2021-02-26 15:40:50

1.1K0

发布于 2021-02-26 15:40:50

文章被收录于专栏：深度强化学习实验室

深度强化学习实验室

官网：http://www.neurondance.com/

论坛：http://deeprl.neurondance.com/

作者：南栖仙策

编辑：DeepRL

实验室论坛：http://neurondance.com/

众所周知，强化学习（RL）在游戏界的成功已经在 AI 界产生了轰动，不管是玩出历史高分的微软AI，还是继围棋之后，人工智能又攻克的德州扑克，亦或是利用“左右互搏”来增强学习的OpenAI。人工智能在不同的游戏中的最新得分已经超越了人类的水平。

当大家还在认为强化学习只能用于游戏环境时，强化学习的落地技术已成Google、DeepMind等科技巨头争相研究的焦点。巨头们趋之若鹜的背后，是智能决策背后隐藏着的巨大商业价值。“智能决策”是人工智能产业必须要攻占的商业城池，否则便会在商业竞争中处于下风。

犹如广袤富饶的西伯利亚平原，智能决策覆盖的商业土壤极为丰蕴肥阔，却受困于冰冻的封印，当基于强化学习的智能决策走出游戏后，这片尚未被开垦的沃土便会完成解冻与苏醒，给拓荒者带来极为丰厚的收获。

如何让智能决策的落地？离线强化学习(Offline RL)也许是实现目标的最佳路径，因为这使得强化学习可以不依赖于模拟环境，直接从收集的大量历史数据中学习策略。为了推动强化学习技术落地，许多机构提出了各种各样的基准数据集、基准任务以模拟离线强化学习面临的挑战，然而近期南京大学、南栖仙策、上海交通大学等单位的研究者发现，现有离线强化学习的测试基准与实际应用有很大的差异，难以支撑强化学习的落地。

如何让强化学习的测试基准接近真实应用，从而支撑强化学习的落地？

我们知道，离线强化学习旨在从已收集到的数据中学习最优的策略，在训练过程中其不需要与环境进行额外的交互。离线强化学习试图减少在环境中的危险行为，从而极大地拓宽强化学习的应用范围。

然而，研究者们发现目前的离线强化学习基准包含由高度探索性策略收集的大型数据集，并且一个训练的策略会直接在环境中评估。在现实世界中，为了确保系统安全，往往会禁止运行具有高度探索性的策略。这导致强化学习研究者们产生了一个普遍性的问题：数据通常非常有限，在部署之前如何对训练好的策略进行充分验证？

据了解，为解决以上问题，近期一家专注于智能决策的人工智能新锐公司，脱胎于南京大学人工智能学院的南栖仙策联合南京大学、上海交通大学，提出了一套接近真实世界的基准——NeoRL。

NeoRL包含来自不同领域、大小可控的数据集，以及用来做策略验证的额外测试数据集。我们选择一些任务构建具有接近真实世界应用属性的数据集。与之前的工作相比，我们提出的任务考虑了上述现实差距，并在此基础上，模拟现实世界中可能遇到的各种复杂情况，构建不同性质的离线数据集。

NeoRL具有以下特点：

• 接近现实的环境和奖励函数

• 多级策略和灵活的数据划分

• 统一的API接口和丰富的基准算法对比

南栖仙策在NeoRL上评估现有的离线强化学习算法。在实验中，策略的表现也应该与确定性版本的行为策略（the deterministic version of behavior policy）进行比较，而不仅仅是数据集奖励。因为真实系统应用中通常有一个确定性策略，而为了增加数据多样性或者进行轻度探索，数据集通常是对该策略输出的动作加入扰动来收集的，这会降低该策略的表现。此外，在策略部署前，需要对策略进行充分的性能评估，而不是直接放到线上环境运行得出结果，这在真实场景中是不可接受的。

实验结果表明，在许多数据集上，离线强化学习算法的表现和这个确定性策略表现类似，并且离线策略评估（offline policy evaluation）对模型选择几乎没有帮助。南栖仙策希望这项工作能对强化学习在实际系统中的研究和部署有所帮助。

NeoRL在不同场景中提供的基准环境

【工业制造】

工业数据有着不间断、多样性、实时性、行业性等特点，因此在制造业的数字化利用过程中，工业数据也比其他行业的数据更为复杂。比如供应参数、生产工序的变化都会导致数据本身变化量很大，给数据标记、分发等带来结构性难度。

除数据覆盖面的问题外，在推动工业智能制造的过程中最严重的问题之一就是因设备标准不统一带来的数据类型多样化的瓶颈。覆盖面不足产生的数据缺失，以及制造过程中数据多样化，导致在真实的工业制造中结果的高随机性，如果通过反复试错去验证目标，往往意味着极高的成本。

工业基准（IB）是一种强化学习基准环境，模拟各种工业控制任务（如风力或燃气轮机、化学反应器）中呈现的特性。它包括现实工业环境中经常遇到的问题，如高维连续状态和动作空间、延迟奖励、复杂的噪声模式以及多个反应目标的高随机性。

NeoRL将系统状态的两个维度添加到观测空间中，以计算每一步的即时奖励。由于工业基准环境本身是一个高维度、高随机性的环境，所以在这个环境上采样数据时，并没有给动作添加显式噪声。

在这样一个基准环境中，测试者在实验中即可完成对真实结果的推演，做到了“0成本”，让企业的人力、物力、财力得到了极大的降低。

【量化交易】

在股票市场的主观交易中，交易员在没有客观规则指导的情况下按照主观意愿执行买卖决策。主观交易最大的缺点之一是情绪波动。价格波动会显著影响交易员的情绪，过度恐慌和过度贪婪反过来影响决策质量。

而量化交易是一种应用数学模型来帮助投资者进行判断，并且根据计算机程序发的指令来进行交易的一种投资方式，它极大地减少了投资者情绪波动的影响，避免在市场极度狂热或悲观的情况下做出非理性的投资决策。

量化交易具有快速高效、客观理性、准确及时、风险与收益对等的特点。量化交易是一个高动态的场景，同样的择时策略在不同时间可能产生完全不一样的结果，交易员可以通过回测统计历史数据行情，验证自己策略如何，寻找可循的行情规律，通过海量的试验寻找胜率较高的交易策略。

FinRL环境提供了一种建立股票交易模拟器的方法，可以复制真实的股票市场，并提供回测支持，其实施考虑了交易手续费、市场流动性和投资者风险规避等因素。在FinRL环境下，每个交易日可以对股票池中的股票进行一次交易。奖励函数是当天结束时与前一天总资产价值的差额。随着时间的推移，环境存在自我演化。

【智慧城市】

由于大型建筑占地面积广，用能设备众多，能耗采集多数采用人工收集的方式，缺乏即时性和准确性，且耗时耗力。建筑内部缺乏完善的能源信息统计工具，无法对能源数据进行统一采集、汇总、分析、存储，就缺少了支撑决策的数据库，能耗去向不明，造成管理混乱，效率低下，成本支出逐年上升。

城市能源管理决策，需要考虑多个建筑内的联系，复杂多变，决策空间大，可否通过在模拟的能源使用环境中，构建能源需求曲线，从而对能源的使用进行控制？

CityLearn（CL）环境是一个类似OpenAI Gym的环境，它通过控制不同类型建筑的储能来重塑电力需求的聚集曲线。高电力需求提高了电价和配电网的总体成本。扁平化、平滑化和缩小电力需求曲线有助于降低发电、输电和配电的运营和资本成本。优化的目标是协调用电方（即建筑物）对生活热水和冷水储存的控制，以重塑电力需求的总体曲线。