👆关注“博文视点Broadview”,获取文末赠书
原文来源:公众号“AI科技评论”
作者 | 陈彩娴;编辑 | 刘冰一
当地时间5月6日,英国皇家学会(英国最高科学学术机构)公布了最新院士与外籍院士(Fellows and Foreign Members)名单,入选科学家包括52名院士、10名外籍院士与1名荣誉院士。
根据英国皇家学会的官方报道,入选院士的研究内容与科学成就多种多样,既有人研究如何检测人类大脑中的新型神经元,针对全球重要传染病的疫苗设计和开发,也有人研究爱因斯坦广义相对论,或者海平面上升与全球变暖之间的联系。
其中,人工智能领域的入选人员中包括《强化学习(第2版)》(Reinforcement Learning, II)一书的作者Richard Sutton。
01
Richard Sutton
Richard Sutton目前在阿尔伯塔大学计算机系担任教授、DeepMind担任杰出研究科学家。
他的本科就读于斯坦福大学心理学专业,硕博就读于马萨诸塞大学安姆斯特分校计算机科学专业,导师为Andrew Barto。他曾与导师Andrew Barto合著《强化学习(第2版)》(Reinforcement Learning, II,本书中文版由电子工业出版社博文视点出版,文末赠书)。其中,他贡献了时序差分学习(temporal-difference learning)和策略梯度方法,因此被称为“现代强化学习之父”。
1984年博士毕业后,Sutton继续在马萨诸塞大学担任了一年博士后研究员。1985年至1994年间,他在GTE实验室担任首席技术人员,然后在1995年再次回到马萨诸塞大学担任高级研究科学家。1998年至2002年,他又在AT&T香农实验室人工智能部门担任首席技术人员。
2003年至今,他一直在加拿大阿尔伯塔大学计算机系担任教授,创立了该校的强化学习与人工智能实验室并担任负责人至2018年。2017年开始,他加入DeepMind,联合创立了DeepMind的首个卫星研究实验室(位于埃德蒙顿)。
Richard Sutton的主要研究内容是强化学习(一种从样本经验中学习与规划、从而通往人工智能的方法),目前正寻求将强化学习拓展至从实际出发的、基于预测来进行知识表征的方法。
除了《强化学习(第2版)》一书,Sutton对强化学习的研究贡献还包括Dyna架构(整合学习、规划与反应)、用于动物学习的时序差分学习方法、可预测状态表征、Horde架构等。
其他入选人员还有:
02
Michael Jordan
Michael Jordan目前是加州大学伯克利分校(UC Berkeley)电气工程与计算机科学系、统计系的陈丕宏杰出教授(Pehong Chen Distinguished Professor)。
他的本科就读于路易斯安那州立大学,主修心理学;之后获得亚利桑那州立大学数学和统计学硕士学位、加州大学圣地亚哥分校认知科学博士学位,还在马萨诸塞大学与Andrew Barto一起担任人工智能领域博士后研究员。
两年的博士后研究结束后,Jordan于1988年接受了MIT大脑与认知科学系的助理教授职位,并开始建立一个研究小组,主要研究人类运动控制以及机器学习和推理。1997年,在UC Berkeley的统计学家Peter Bickel的邀请下,他从MIT转到UC Berkeley,任职至今。
Michael Jordan的主要研究兴趣包括计算、统计、认知与生物科学,在变分推理、主题模型、贝叶斯非参数、强化学习、凸优化与非凸优化、分布式计算系统与博弈论学习等研究方向上取得了著名成就,被称为“机器学习之父”。
他是机器学习领域唯一获得美国科学院、美国工程院、美国艺术与科学院三院院士成就的科学家,AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA和SIAM等全球顶级学会Fellow,被数理统计研究所任命为 Neyman Lecturer 和 Medallion Lecturer。曾获得2021年格林纳德随机理论与建模奖、2020年IEEE约翰·冯·诺依曼奖章、2016年IJCAI研究卓越奖、2015年David E. Rumelhart奖、2009年ACM / AAAI Allen Newell奖等。
Michael Jordan所教授的学生占据了AI学术界的半壁江山,包括深度学习三大开山鼻祖之一、蒙特利尔大学教授 Yoshua Bengio,贝叶斯学习领域权威 Zoubin Ghahramani,LDA领域权威、哥伦比亚大学教授 David M. Blei,前百度首席科学家、斯坦福大学教授 Andrew Ng(吴恩达),斯坦福大学副教授 Percy Liang 等等。
03
David Silver
David Silver目前在伦敦大学学院(UCL)计算机系担任教授、DeepMind担任首席研究科学家。他刚加入DeepMind就担任强化学习小组的组长,是AlphaGo、AlphaZero项目的领导者,AlphaStar的联合领导者。
他的本科与硕士均就读于剑桥大学,在剑桥读书时与Demis Hassabis(DeepMind的创始人)成为好朋友,两个人都对人工智能与围棋着迷,后来联合创立一家叫做Elixir Studios的游戏公司,David Silver担任CTO与项目负责人,开发了《共和国:革命》等热门游戏。
2004年,David Silver重返校园,到加拿大阿尔伯塔大学攻读博士,继续研究强化学习。读博期间,他参与创立了首次用于9×9围棋程序的算法,与Sylvain Gelly共同发表的MoGo是2009年最出色的围棋程序之一。
2011年,Silver获得英国皇家学会大学研究奖学金,随后加入UCL担任讲师,如今升为教授。
David Silver在许多开创性项目上取得了重要成就,比如开发世界上第一个端到端的强化学习系统DQN,通过自我对打、成为世界上第一个击败世界冠军的围棋程序Alpha Go。
他的最新研究内容是将强化学习与深度学习结合,比如从pixels中直接玩Atari游戏。
完整名单如下:
参考链接:
https://royalsociety.org/news/2021/05/new-fellows-announcement-2021/
Richard Sutton著作
▊《强化学习(第2版)》
[加] RichardS.Sutton,[美] AndrewG.Barto 著
俞凯 等 译
本书作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
本书适合所有对强化学习感兴趣的读者阅读、收藏。
(京东限时活动,满100减50,快快扫码抢购吧!)
互动赠书
在本文下方留言区留下你与强化学习的故事,我们将随机选取1位小伙伴,赠送RichardS.Sutton的著作《强化学习(第2版)》。
活动截止时间:2021.5.10
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
热文推荐
媒体化战略:企业如何做好公关与内容营销
杨强教授领衔撰写,联邦学习实战的权威著作!
书单 | 月度畅销好书,助你技能满格
Excel用户如何学习数据分析语言DAX?
▼点击阅读原文,查看本书详情~
本文分享自 博文视点Broadview 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!