独家 | 一文了解强化学习的商业应用

数据派THU

发布于 2018-12-07 15:40:02

5740

发布于 2018-12-07 15:40:02

文章被收录于专栏：数据派THU数据派THU

作者：Aishwarya Srinivasan

翻译：Cream

校对：王雨桐

本文约4000字，建议阅读10分钟。

本文介绍了强化学习的应用场景、基本概念和数学模型。

DeepMind开发的AlphaGo（用于下围棋的AI系统）的出现引起了强化学习的热潮。从那之后，许多公司开始投入大量的时间、精力来研究强化学习。目前，强化学习是深度学习领域中的热点问题之一。大多数企业都在努力寻找强化学习的应用实例或者将其应用在商业中的方法。目前来说，此类研究只在零风险、可观测并且易模拟的领域展开。所以，类似金融业、健康行业、保险业、科技咨询公司这样的行业不愿冒险去探索强化学习的应用。此外，强化学习中的“风险管理”部分给研究带来了很大压力。Coursera的创始人Andrew Ng曾表示：“强化学习在机器学习中，对数据的依赖远超过有监督学习。我们很难获得足够多的数据来应用强化学习算法。因此，将强化学习应用到商业实践中仍有许多工作要完成。”

基于这样有些悲观的想法，本文的第1部分将从技术层面深入地探讨强化学习。在第2部分，我们将介绍一些潜在的商业应用。基本上，强化学习是一种复杂的算法，用于将观察到的实际情况和度量（累计奖励）映射到动作集合中，以实现短期或长期的奖励最优化。强化学习的智能体（agent）通过和环境的互动不断学习策略，策略一个动作（以奖励为导向的）序列。事实上，强化学习关注的是即时奖励和随后步骤的奖励（延迟的奖励），因为奖励值是决定智能体改变策略的主要依据。

强化学习的模型包含一个智能体（agent），该智能体在每个环境状态下，通过执行一个动作，改变其状态，这个动作产生的影响用奖励函数来表示。该智能体的目标是要实现长期累计的奖励最大化，在每一个动作执行后，将反馈传递给智能体，智能体可以评估在当前环境最优的下一个动作。通过历史相似情况下的最佳行动，系统会从中学习经验。