首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

强化学习之父理查德·萨顿:AI需要走出实验室,通过与世界的互动来成长

作者 |梁昌均

编辑 | 杨锦

“智能是宇宙中最强大的现象。”未来学家雷·库兹韦尔(Ray Kurzweil)的这句话成为强化学习之父、2024图灵奖得主、阿尔伯塔大学理查德·萨顿(Richard S. Sutton)最新在北京智源大会上演讲的开场白。

他想借此强调AI的重要性以及目前所发生的事情的分量。但他表示,现在的AI无论是自然语言处理还是图像识别,都是从互联网上获取数据进行训练,然后根据人类专家的偏好进行微调。但现在已经开始触及数据的极限,即使是高质量的数据源也已经被消耗殆尽。

“人类数据的局限性在于,当我们试图使用人类数据来让系统表现得非常好时,最终会达到极限。现在已经达到了人类数据的极限,必须用可扩展的东西来取代人类数据,以充分利用可扩展的计算能力,这个东西就是人类的经验。”

萨顿认为,AI需要走出实验室,通过与世界的互动来成长和改进。“我认为,看人们学习的视频是很有用的,这提醒我们,我们都是从经验中学习。”

这就像婴儿,与世界的不同部分依次互动,学习如何与玩具互动,并做出选择,不断地尝试,从错误中学习。“行为决定了经验和数据,而这正是我们需要的。”

萨顿认为,数据源会根据智能体的能力而变化,就像两个游戏系统相互交互一样,随着它们的改进,数据也会变得不同,这就是学习创造新知识的方式。“这是从经验中学习的关键,经验是通过模拟可能的行为及其后果来实现。”

“智能体与世界交换信号,这些信号就是经验,而学习则是从经验中产生。”萨顿认为,智能体所知道的一切都是基于经验,即使提前给智能体一些知识,它也会反馈。

因此,智能体通过经验来扩展其控制能力,尤其是在其早期阶段和奖励信号。“AI应该是关于智能的,智能是关于经验的,经验是所有智能的核心和基础。”

这正是强化学习的核心,即智能体做出决策、实现目标、与世界互动,并完全具有自主性。从时间线来看,强化学习也经过了多个时代。

第一个时代是阿尔法狗(AlphaGo)的时代,是模拟强化学习智能体的时代,从模拟经验中学习。进入数据时代后,有了ChatGPT和GPT-3,现在正处于这个时代末期。

“我们将进入经验时代,与世界互动。我们看到了第一个迹象就是,大语言模型现在使用计算机,拥有可以实际在世界中采取行动的API。”

“从我的角度来看,我们需要创造出超级智能体。我不担心安全问题,我不担心法律。我认为这将需要一段时间,可能会持续几十年,这是一场马拉松,但它对我们来说是好的,值得为之做好准备,这将是世界在未来一段时间内的重要变革。”

不过,萨顿强调,完全智能的智能体将不得不从经验中学习,这超出了目前的智能体。“我们已经进入了新的经验时代,需要使用强化学习,充分发挥其力量,并需要更好的深度学习算法。”

不过,他也表示,当前强化学习仍然存在一些弱点,并不是持续学习,且还没有有效的方法来使用学习模型进行规划。“这也是为什么我认为AGI不会在两年内完成的原因,如果我们幸运的话,可能在五年内完成,但也可能需要15年。”

作为一名强化学习研究者,萨顿说自己自然会从强化学习和智能体的角度来思考。每个智能体都有自己的目标,有自己的奖励信号,试图最大化这个目标,没有理由认为不同智能体的奖励序列必须相同。而在AI和自然界中,不同的智能体有不同的目标。

“我认为,当人们有不同的目标和不同的能力时,它们运作得最好。所以,目标不会冲突,但将是不同的。”这种去中心化的现象,使得每个智能体都在追求自己的目标。

同时,这些智能体也可以进行合作。当具有不同目标的智能体互动并相互受益时,每个智能体都通过互动实现推进自己的目标。“这是一种交换,一种双赢,这就是去中心化的合作。”

“我认为合作是我们的超级力量,人类比任何其他动物都更善于合作。比如经济、市场和政府,这些是我们合作的方式,而我们最大的失败是合作的失败,比如战争、盗窃和腐败。”这种去中心化的合作,比中心化更稳健、可持续和灵活。

不过,萨顿也表示,合作并不总是可能的,至少需要两个可信的智能体,而且总会有不可信的智能体,因此这需要促进合作的机构来推动。

对于深度学习奠基人之一、2018年图灵奖得主约书亚·本吉奥(Yoshua Bengio)控制AI的目标,以及暂停或停止AI研究,或限制用于制造AI的计算能力的呼声,以确保AI安全,萨顿并不认可,认为这与控制人类的呼吁有着相似逻辑。

“这些呼吁的共同点在于,它们都基于一种对立思维。我认为,这本质上是一个社会问题,即我们如何应对人类拥有多种目标这一事实。我们是走向去中心化和合作,还是走向中心化和控制?”萨顿反问道。

“在听完本吉奥的演讲后,我认为首先要理解的是,他和我虽然都希望创造一个美好的世界,但方法有所不同。许多像本吉奥这样的人呼吁改变AI本身,限制它们,控制它们,以确保安全性。我则呼吁改变社会,改变AI所生活的环境,使它们成为有益的、合作的智能体。”

“我们是要通过控制AI的存在来确保它们不会伤害我们,还是要构建一个欢迎所有参与者并促进合作的世界?”

萨顿说,如果试图改变AI本身,这是一种高危险的策略。如果让所有AI都变得安全,但只要有一个人制造了一个不安全的AI,那么就会面临问题。但如果我们改变世界,让所有参与者都能参与并做出贡献,那么我们就会更加安全,这是一种更稳定的策略。

最后,他强调,人类和AI的未来都源于去中心化的合作。“人类在合作方面既有伟大的成就,也有不尽如人意的地方,合作并非总是可能,但它是一切美好事物的源泉,我们必须寻求支持和促进合作。”

“现在,我想呼吁大家用自己的眼睛去观察这个世界。我们应该抵制这些呼吁,我认为这是一个有用的视角,可以帮助我们看待人类与AI的互动。”萨顿说。

///全文完///

运营编辑|李阳

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OgSKJ8C6N7-e2aUEqTG5eZUg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券