用强化学习玩文本游戏

原创

张戎

发布于 2017-09-30 09:27:43

2.2K2

导语随着 DeepMind 成功地使用卷积神经网络（CNN）和强化学习来玩 Atari 游戏，AlphaGo 击败围棋职业选手李世石，强化学习已经成为了机器学习的一个重要研究方向。除此之外，随着人工智能的兴起，自然语言处理在聊天机器人和智能问答客服上也有着广泛的应用。之前在一篇博客里面曾经介绍了强化学习的基本概念，今天要介绍的是强化学习在文本领域的应用，也就是如何使用强化学习来玩文本游戏。要分享的 Paper 是 Deep Reinforcement Learning with a Natural Language Action Space，作者是 Microsoft 的 Ji He 与他的合作者们。

随着 DeepMind 成功地使用卷积神经网络（CNN）和强化学习来玩 Atari 游戏，AlphaGo 击败围棋职业选手李世石，强化学习已经成为了机器学习的一个重要研究方向。除此之外，随着人工智能的兴起，自然语言处理在聊天机器人和智能问答客服上也有着广泛的应用。之前在一篇博客里面曾经介绍了强化学习的基本概念，今天要介绍的是强化学习在文本领域的应用，也就是如何使用强化学习来玩文本游戏。要分享的 Paper 是 Deep Reinforcement Learning with a Natural Language Action Space，作者是 Microsoft 的 Ji He 与他的合作者们。

对于强化学习而言，那就不得不提到 Markov 决策过程（Markov Decision Process）。它是由状态（State），动作（Action），状态转移概率（State Transition Probability），折扣因子（Discount Factor），奖励函数（Reward Function）五个部分构成。强化学习做的事情就是该 agent 在某一个时刻处于某个状态 s，然后执行了某个动作 a，从整个环境中获得了奖励 r，根据状态 s 和奖励 r 来继续选择下一个动作 a，目标是让获得的奖励值最大。整个过程其实是一个不断地从环境中执行动作和获得奖励的过程，通过引入动作值函数 Q(s,a) 的概念，介绍了 Q-learning 这个基本算法。通过 Q-learning 来让 agent 获得最大的奖励。

在实际的生产环境中，状态空间 S 很可能是十分巨大的，如果对于 Atari 游戏的话，动作空间 A 是有限的（例如上下左右移动，攻击，躲避等）。因此 DeepMind 在处理这个问题的时候，创新性地使用了卷积神经网络（CNN）和强化学习（RL）两者结合的解决方案。通过 CNN 来读取游戏图像，然后神经网络输出的是动作值函数 Q(s,a)，其中 a 就是游戏手柄上的几个动作按钮。然后使用周围环境的反馈和强化学习方法来获得相应的样本，从而训练整个 CNN 神经网络。

下面来介绍本文的正式内容。首先文本游戏和视觉游戏有一定的差别，视觉游戏的状态就是当前的屏幕图像，文本游戏的状态是一段文本描述，然后玩家来给出一个合适的动作进入下一个状态。例如：白色的文字描述就是当前的状态，蓝色的文字就是玩家要选择的动作。

当玩家选择了其中一个状态（例如选择了第一个 A Lister sandwich）之后，就会进入下一个状态，如图所示。

注：关于文本游戏 Machine of Death 的代码和基本信息，可以参见 https://github.com/jvking/text-games.

综上所述，DRRN 的伪代码如下：

DRRN 相比另外两个模型其创新点在于分别使用了两个网络来映射状态文本和动作文本，因为如果将长文本和短文本直接拼接输入单个神经网络结构的时候，可能会降低 Q 值的质量，所以把 state-text 和 action-text 分别放入不同的网络结构进行学习，最后使用内积合并的方式获得 Q 值的方法会更加优秀。

参考文献：

Deep Reinforcement Learning with a Natural Language Action Space

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

强化学习