让《强化学习（第2版）》架起一座通往强化学习经典知识宝库的桥梁

博文视点Broadview

发布于 2020-06-10 16:30:20

5800

发布于 2020-06-10 16:30:20

在 AlphaGo战胜李世石之后，AlphaZero以其完全凭借自我学习超越人类在各种棋类游戏中数千年经验的能力再次刷新了人类对人工智能的认识，也使得强化学习与深度学习的结合受到了学术界和产业界的前所未有的关注。

如今，《强化学习（第2版）》中文版的隆重上市，为机器学习领域的中国学者和学生架起一座通往强化学习经典知识宝库的桥梁。本书来自强化学习领域先驱者Richard S. Sutton和Andrew G. Barto之手，Csaba Szepesvari、Demis Hassabis、邓力、黃士傑、Pedro Domingos、漆远、Tom Mitchell、杨强、Yoshua Bengio、张钹、周志华等国内外行业大咖一致给出好评。

本书译者、上海交大计算科学与工程系教授，俞凯老师，用5分钟的时间带你快速了解、认识强化学习技术以及《强化学习（第2版）》这部殿堂之作。

俞凯 / 《强化学习（第2版）》译者，上海交通大学计算科学与工程系教授，思必驰公司创始人、首席科学家。

以下为音频文字

大家好，我是俞凯。

首先热烈祝贺《强化学习（第2版）》在国内正式发行。

“思想总是走在行动的前面，就好像闪电总是走在雷鸣之前”，这是德国诗人海涅的诗句，也再恰当不过地描述了我第一次读到本书英文原版时候的感觉。这本书的两位作者Richard S. Sutton 和 Andrew G. Barto 就是思想的先行者，而这本书所介绍的强化学习的思想，则是后深度学习时代技术发展最重要的火种之一。

以连接主义的神经网络为代表的深度学习，毫无疑问是21世纪初人工智能领域当中最重要且最具有实用意义的技术突破。它为基础研究走向产业应用做出了巨大的贡献，同时也赢得了巨大的声誉和关注，今年的图灵奖就被授予了深度学习的几位开创者。

但是如火如荼的产业应用其实并不能掩饰出我们基础研究当中对深度学习以及未来人工智能走向的担忧，越来越多的研究者已经把对深度学习的改良性研究视为工业界的应用技巧而开始关注与联结主义的经典深度学习不同的新的人工智能范式的探索。而这其中我看到了两个重要的趋势，一个是黑箱到白箱，另外一个是开环到闭环。

第一个就是将连接主义的、不可解释的神经网络式的黑箱学习，与先验知识、符号推理和经典的机器学习相结合，实现可解释、可推理、可操控的新一代的白箱学习，实现比较安全的人工智能。

另外一个也是我们非常关注的，从开环到闭环，也就是从与传统的、基于静态的数据和标签的数据的收集与模型的优化，是相互独立的两个过程的开环学习，逐渐转化成基于动态标签的数据本身的产生和标签的出现与模型的优化紧密耦合在一起的闭环学习。

强化学习就是这种闭环学习的人工智能范式的一个典型的代表。正如这本书当中所详细介绍的，它与传统的预先收集，或者是构造好数据以及标签的有监督学习有着非常本质的差别。它是在强调与环境的交互当中获取那些反映了真实目标达成度的反馈信号，强化学习会强调试错的学习和序列决策行为当中的动态和长期的效应，这些都使得强化学习适用于解决人工智能领域当中的一些深度的难题，比如说我本人所从事的认知型人际口语对话系统，强化学习的使用就具有无可替代的重要地位。当然更为重要的，在AlphaGo和AlphaZero这样一些非常有显示度的棋类对弈的研究当中，强化学习刷新了人类新的经验认知，使得学术界和产业界为强化学习与深度学习的结合，都给出了前所未有的关注。

《强化学习（第2版）》就是在这样的背景之下出版的。

这本书并不是一个实用主义的算法的普及材料，而是一本强化学习思想的深度解剖的材料，是强化学习基础理论的一个经典描述。这本书并没有从复杂的理论角度、算法角度对强化学习的理论和方法进行形式化的推导，而更多的是从基本的思想出发，深入浅出地介绍了各个基本概念。它同时也包含了很多与时俱进的最新的应用成果和作者最新的一些思想。这本书既可以是一个初级教材，也可以作为研究者自学的一个入门教程。

在这本书的翻译过程当中，Richard S. Sutton和Andrew G. Barto还特意为中国的读者们写了一段寄语，其中提到“希望本书的中文译本能够促进中国学生产生更多的新的思想，为世界范围的强化学习的研究繁荣做出贡献”，这一期望也使得作为翻译者的我倍感荣幸。也期望本书的中文译本能够让他们的思想为更多的中国研究者所了解，作为一个火种在中国孕育，并且产生人工智能前沿研究的各种新的思想。

———— ————