刚刚,计算机学会(ACM)宣布了 2024 年的「图灵奖」获得者:
- Andrew G. Barto (马萨诸塞大学阿默斯特分校荣誉退休教授,Sutton 的博士导师)
- Richard S. Sutton (强化学习之父,阿尔伯塔大学教授,DeepMind 杰出研究科学家)
【获奖理由】:
Andrew Barto 和 Richard Sutton 因其在强化学习(Reinforcement Learning, RL) 领域做出的奠基性贡献而共同获得 2024 年图灵奖。他们被公认为强化学习领域的创始人,其研究成果对人工智能的发展产生了深远影响。
【核心贡献】:
1、共同撰写了强化学习领域的经典教材《Reinforcement Learning: An Introduction》(中文名《强化学习:导论》),是 RL 领域的“圣经”。
2、构建了强化学习理论体系,明确了强化学习的核心思想:智能体(Agent)通过与环境(Environment)的交互,学习如何采取行动(Action)以最大化累积奖励(Reward)。
3、提出了强化学习领域的诸多关键概念:
a. 马尔可夫决策过程(Markov Decision Process, MDP):为强化学习问题提供了数学形式化描述。
b. 价值函数(Value Function):用于评估状态或状态-动作对的“好坏”。
c. 策略(Policy):定义了智能体在不同状态下采取行动的规则。
d. 贝尔曼方程(Bellman Equation):为计算价值函数提供了递归关系。
e. 时序差分学习(Temporal Difference Learning, TD Learning):Sutton 提出,是强化学习中最核心、最成功的算法之一,TD 学习后来成为 Q-learning 和深度强化学习(如 DQN)的核心思想。
f. 策略梯度方法(Policy Gradient Methods): 直接优化策略参数,而不是通过价值函数间接优化。
领取专属 10元无门槛券
私享最新 技术干货