强化学习之父理查德·萨顿：AI需要走出实验室，通过与世界的互动来成长

文章来源：企鹅号 - 搜狐有范

作者 |梁昌均

编辑 | 杨锦

“智能是宇宙中最强大的现象。”未来学家雷·库兹韦尔（Ray Kurzweil）的这句话成为强化学习之父、2024图灵奖得主、阿尔伯塔大学理查德·萨顿（Richard S. Sutton）最新在北京智源大会上演讲的开场白。

他想借此强调AI的重要性以及目前所发生的事情的分量。但他表示，现在的AI无论是自然语言处理还是图像识别，都是从互联网上获取数据进行训练，然后根据人类专家的偏好进行微调。但现在已经开始触及数据的极限，即使是高质量的数据源也已经被消耗殆尽。

“人类数据的局限性在于，当我们试图使用人类数据来让系统表现得非常好时，最终会达到极限。现在已经达到了人类数据的极限，必须用可扩展的东西来取代人类数据，以充分利用可扩展的计算能力，这个东西就是人类的经验。”

萨顿认为，AI需要走出实验室，通过与世界的互动来成长和改进。“我认为，看人们学习的视频是很有用的，这提醒我们，我们都是从经验中学习。”

这就像婴儿，与世界的不同部分依次互动，学习如何与玩具互动，并做出选择，不断地尝试，从错误中学习。“行为决定了经验和数据，而这正是我们需要的。”

萨顿认为，数据源会根据智能体的能力而变化，就像两个游戏系统相互交互一样，随着它们的改进，数据也会变得不同，这就是学习创造新知识的方式。“这是从经验中学习的关键，经验是通过模拟可能的行为及其后果来实现。”

“智能体与世界交换信号，这些信号就是经验，而学习则是从经验中产生。”萨顿认为，智能体所知道的一切都是基于经验，即使提前给智能体一些知识，它也会反馈。

因此，智能体通过经验来扩展其控制能力，尤其是在其早期阶段和奖励信号。“AI应该是关于智能的，智能是关于经验的，经验是所有智能的核心和基础。”

这正是强化学习的核心，即智能体做出决策、实现目标、与世界互动，并完全具有自主性。从时间线来看，强化学习也经过了多个时代。

第一个时代是阿尔法狗（AlphaGo）的时代，是模拟强化学习智能体的时代，从模拟经验中学习。进入数据时代后，有了ChatGPT和GPT-3，现在正处于这个时代末期。

“我们将进入经验时代，与世界互动。我们看到了第一个迹象就是，大语言模型现在使用计算机，拥有可以实际在世界中采取行动的API。”

“从我的角度来看，我们需要创造出超级智能体。我不担心安全问题，我不担心法律。我认为这将需要一段时间，可能会持续几十年，这是一场马拉松，但它对我们来说是好的，值得为之做好准备，这将是世界在未来一段时间内的重要变革。”

不过，萨顿强调，完全智能的智能体将不得不从经验中学习，这超出了目前的智能体。“我们已经进入了新的经验时代，需要使用强化学习，充分发挥其力量，并需要更好的深度学习算法。”

不过，他也表示，当前强化学习仍然存在一些弱点，并不是持续学习，且还没有有效的方法来使用学习模型进行规划。“这也是为什么我认为AGI不会在两年内完成的原因，如果我们幸运的话，可能在五年内完成，但也可能需要15年。”

作为一名强化学习研究者，萨顿说自己自然会从强化学习和智能体的角度来思考。每个智能体都有自己的目标，有自己的奖励信号，试图最大化这个目标，没有理由认为不同智能体的奖励序列必须相同。而在AI和自然界中，不同的智能体有不同的目标。

“我认为，当人们有不同的目标和不同的能力时，它们运作得最好。所以，目标不会冲突，但将是不同的。”这种去中心化的现象，使得每个智能体都在追求自己的目标。

同时，这些智能体也可以进行合作。当具有不同目标的智能体互动并相互受益时，每个智能体都通过互动实现推进自己的目标。“这是一种交换，一种双赢，这就是去中心化的合作。”

“我认为合作是我们的超级力量，人类比任何其他动物都更善于合作。比如经济、市场和政府，这些是我们合作的方式，而我们最大的失败是合作的失败，比如战争、盗窃和腐败。”这种去中心化的合作，比中心化更稳健、可持续和灵活。

不过，萨顿也表示，合作并不总是可能的，至少需要两个可信的智能体，而且总会有不可信的智能体，因此这需要促进合作的机构来推动。

对于深度学习奠基人之一、2018年图灵奖得主约书亚·本吉奥（Yoshua Bengio）控制AI的目标，以及暂停或停止AI研究，或限制用于制造AI的计算能力的呼声，以确保AI安全，萨顿并不认可，认为这与控制人类的呼吁有着相似逻辑。

“这些呼吁的共同点在于，它们都基于一种对立思维。我认为，这本质上是一个社会问题，即我们如何应对人类拥有多种目标这一事实。我们是走向去中心化和合作，还是走向中心化和控制？”萨顿反问道。

“在听完本吉奥的演讲后，我认为首先要理解的是，他和我虽然都希望创造一个美好的世界，但方法有所不同。许多像本吉奥这样的人呼吁改变AI本身，限制它们，控制它们，以确保安全性。我则呼吁改变社会，改变AI所生活的环境，使它们成为有益的、合作的智能体。”

“我们是要通过控制AI的存在来确保它们不会伤害我们，还是要构建一个欢迎所有参与者并促进合作的世界？”

萨顿说，如果试图改变AI本身，这是一种高危险的策略。如果让所有AI都变得安全，但只要有一个人制造了一个不安全的AI，那么就会面临问题。但如果我们改变世界，让所有参与者都能参与并做出贡献，那么我们就会更加安全，这是一种更稳定的策略。

最后，他强调，人类和AI的未来都源于去中心化的合作。“人类在合作方面既有伟大的成就，也有不尽如人意的地方，合作并非总是可能，但它是一切美好事物的源泉，我们必须寻求支持和促进合作。”

“现在，我想呼吁大家用自己的眼睛去观察这个世界。我们应该抵制这些呼吁，我认为这是一个有用的视角，可以帮助我们看待人类与AI的互动。”萨顿说。

///全文完///

运营编辑｜李阳

相关快讯