首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2024图灵奖揭晓!强化学习之父Richard Sutton与导师Andrew Barto荣膺桂冠

刚刚,计算机学会(ACM)宣布了 2024 年的「图灵奖」获得者:

- Andrew G. Barto (马萨诸塞大学阿默斯特分校荣誉退休教授,Sutton 的博士导师)

- Richard S. Sutton (强化学习之父,阿尔伯塔大学教授,DeepMind 杰出研究科学家)

【获奖理由】:

Andrew Barto 和 Richard Sutton 因其在强化学习(Reinforcement Learning, RL) 领域做出的奠基性贡献而共同获得 2024 年图灵奖。他们被公认为强化学习领域的创始人,其研究成果对人工智能的发展产生了深远影响。

【核心贡献】:

1、共同撰写了强化学习领域的经典教材《Reinforcement Learning: An Introduction》(中文名《强化学习:导论》),是 RL 领域的“圣经”。

2、构建了强化学习理论体系,明确了强化学习的核心思想:智能体(Agent)通过与环境(Environment)的交互,学习如何采取行动(Action)以最大化累积奖励(Reward)。

3、提出了强化学习领域的诸多关键概念:

a. 马尔可夫决策过程(Markov Decision Process, MDP):为强化学习问题提供了数学形式化描述。

b. 价值函数(Value Function):用于评估状态或状态-动作对的“好坏”。

c. 策略(Policy):定义了智能体在不同状态下采取行动的规则。

d. 贝尔曼方程(Bellman Equation):为计算价值函数提供了递归关系。

e. 时序差分学习(Temporal Difference Learning, TD Learning):Sutton 提出,是强化学习中最核心、最成功的算法之一,TD 学习后来成为 Q-learning 和深度强化学习(如 DQN)的核心思想。

f. 策略梯度方法(Policy Gradient Methods): 直接优化策略参数,而不是通过价值函数间接优化。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OIbDpp6i-mWrHQGcI3Tnz6sw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券