前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

作者头像
量子位
发布2018-03-30 10:43:15
1.1K0
发布2018-03-30 10:43:15
举报
文章被收录于专栏:量子位量子位量子位
舒石 唐旭 发自 东瑶村 量子位 报道 | 公众号 QbitAI

到底是谁击败了柯洁?

答案似乎显而易见。但量子位之所以问这个问题,是因为如今击败柯洁的AlphaGo,与去年击败李世乭的AlphaGo,有着本质的区别。

DeepMind把AlphaGo粗略分成几个版本:

  • 第一代,是击败樊麾的AlphaGo Fan。与Zen/Crazy Stone等之前的围棋软件相比,棋力要高出4子。
  • 第二代,是击败李世乭的AlphaGo Lee。与上一代相比,棋力高出3子。
  • 第三代,是柯洁如今的对手,也是年初60连胜的:AlphaGo Master。相比于击败李世乭的版本,棋力又再次提升3子。

需要强调的是,AlphaGo Lee和AlphaGo Master有着根本不同。不同在哪里,今天DeepMind创始人兼CEO哈萨比斯(Demis Hassabis),AlphaGo团队负责人席尔瓦(Dave Silver)联手首度揭开新版AlphaGo的秘密。

量子位这一篇推送的内容,整理自哈萨比斯、席尔瓦今日上午的主题演讲,还有今日午间量子位对这两位DeepMind核心人物的专访。

单TPU运算,更强的策略/价值网络

首先用数据说话。

AlphaGo Lee

  • 运行于谷歌云,耗用50个TPU进行计算
  • 每次搜索计算后续50步,计算速度为10000个位置/秒
  • 2016年在首尔击败李世乭

作为对比,20年前击败卡斯帕罗夫的IBM深蓝,可以搜索计算一亿个位置。席尔瓦表示,AlphaGo并不需要搜索那么多位置。

AlphaGo Master

  • 运行于谷歌云,但只用一个TPU机器
  • 自学成才,AlphaGo自我对弈提高棋力
  • 拥有更强大的策略/价值网络

由于应用了更高效的算法,这次和柯洁对战的AlphaGo Master,运算量只有上一代AlphaGo Lee的十分之一。所以单个TPU机器足以支撑。

AlphaGo团队的黄士杰博士也在朋友圈表示,最新的AlphaGo可以被称为单机版。而上一代AlphaGo使用了分布式计算。

在会后接受量子位采访时,席尔瓦证实此次AlphaGo仍然使用了第一代TPU,而不是前不久公布的第二代。

另外席尔瓦澄清说:“今年升级版的AlphaGo是在单机上运行的,它的物理服务器上部署了4个TPU”。

显然PPT有个小小的误导。

如果你想更进一步了解TPU,这里有几篇量子位的报道推荐:

回到AlphaGo,可能你也注意到了,这个新版本的围棋AI有了更强大的策略/价值网络。下面围绕这一点继续解密。

席尔瓦

AlphaGo的算法

为了讲清楚新的策略/价值网络强在哪里,还是应该首先介绍一下AlphaGo的算法如何构成。席尔瓦介绍,量子位搬运如下。

当初DeepMind团队,之所以选择围棋方向进行研究,一个重要的原因在于围棋是构建和理解运算的最佳试验台,而且围棋的复杂性远超国际象棋,这让电脑无法通过深蓝一样的暴力穷举方式破解围棋的奥秘。

击败李世乭的AlphaGo,核心是一个卷积神经网络。DeepMind团队希望AlphaGo最终能够理解围棋,形成全局观。席尔瓦表示,AlphaGo Lee由12层神经网络构成,而AlphaGo Master有40层神经网络。

这些神经网络进一步细分为两个功能网络:

  • 策略网络(policy network)
  • 价值网络(value network)

在这两个网络的训练中,使用了监督学习和强化学习两种方式。

首先基于人类的专家库数据,对策略网络的上百万参数进行调整。调整的目标,是让策略网络在相同的情况下,能够达到人类围棋高手的水平:下出同样的一步棋。

然后是强化学习,让人工智能进行自我博弈,这一训练结束后,就形成了价值网络,这被用于对未来的棋局输赢进行预测,在不同的下法中作出优劣判断。

通过策略网络,可以降低搜索的宽度,减少候选项,收缩复杂性。而且不会让AlphaGo下出疯狂不靠谱的步骤。

另一方面,通过价值网络减少深度,当AlphaGo计算到一定的深度,就会停止。AlphaGo不需要一直穷尽到最后。

把这个两个结合起来,就是AlphaGo的树搜索。通过策略网络选出几个可能的路径,然后对这些路径进行评估,最后把结果提交给树顶。这个过程重复几百上千次,最后AlphaGo得出赢棋概率最高的一步。

新策略/价值网络如何炼成

那么新的新策略/价值网络,到底强在哪里?

AlphaGo Master这次成了自己的老师,用席尔瓦的话说,这位围棋AI是自学成才。它从自我对弈的棋局里进行学习,积累了最好的训练数据。“上一代AlphaGo成为下一代的老师”席尔瓦形容道。

通过AlphaGo的自我博弈,不断吸取经验、提高棋力,这一次AlphaGo用自我对弈训练出的策略网络,可以做到不需要更多运算,直接给出下一步的决策。

这种改变明显减少了对计算力的需求。

另一个价值网络,也是基于AlphaGo的自我对弈进行训练,通过对弈后的复盘,价值网络能够学到哪一步是关键所在。通过高质量的自我对弈,训练价值网络预测哪一步更重要。

席尔瓦表示:“在任何一步,AlphaGo都会准确预测如何能赢”。

这个过程不断反复迭代,最终打造了一个更强大的AlphaGo。自我博弈,带来数据质量的提高,从而推动了AlphaGo的快速提升。

如此前一样,DeepMind证实也会公布这一代AlphaGo的相关论文。更多的细节,我们可以期待Deepm稍后的发布。

攻克智能,解决问题

AlphaGo来自DeepMind。2010年DeepMind在伦敦成立,目前有500名员工,其中一半是科学家。哈萨比斯说,DeepMind要把人工智能科学家、数据和计算力结合在一起,推动人工智能的发展。

哈萨比斯

这家公司的愿景:第一是攻克智能。第二是用智能解决所有问题。

换句话说,DeepMind的目标是构建通用人工智能。所谓通用人工智能,首先AI具备学习的能力,其次能举一反三,执行各种不同的任务。如何抵达这个目标?哈萨比斯说有两个工具:深度学习、强化学习。

AlphaGo就是深度学习和强化学习的结合。AlphaGo也是DeepMind迈向通用人工智能目标的一步,尽管现在它更多的专注于围棋领域。

哈萨比斯表示,希望通过AlphaGo的研究,让机器获得直觉和创造力。

这里所谓的直觉,是通过体验直接获得的初步感知。无法表达出来,可通过行为确认其存在和正误。

而创造力,是通过组合已有知识产生新颖或独特想法的能力。AlphaGo显然已展示出了这些能力,尽管领域有限。

“未来能够看到人机结合的巨大力量,人类智慧将被人工智能放大。”哈萨比斯说。目前AlphaGo的技术已经被用于数据中心,能节约15%的电能;另外也能被用于材料、医疗、智能手机和教育等领域。

尽管已经连战连捷,AlphaGo仍然有继续探索的空间。哈萨比斯和DeepMind仍然想在围棋领域继续追问:我们离最优解还有多远?怎样才是完美棋局?

当今社会已有越来越多的数据产生,然而人类往往无法通过这些数据了解全局的变化,在这种情况下人工智能有可能推动科研继续进步。

一切正如国际象棋棋王卡斯帕罗夫所说:

“深蓝已经结束,AlphaGo才刚开始。”

专访全文

哈萨比斯、席尔瓦接受量子位等专访

提问:在Master已经对包括柯洁在内的人类棋手60连胜之后,举办这场比赛的意义在哪里?

哈萨比斯:Master在网上下的都是快棋,人类棋手在下棋时时间控制得可能不会太精准,人类棋手在网上的注意力也不一定完全集中,因此我们仍然需要跟柯洁进行对弈来对AlphaGo进行测试。

同时,通过这些网上的对弈,第一,是希望测试一下AlphaGo的系统;第二,也是希望为围棋界提供一些新的想法和思路,给柯洁一定备战的时间,也为他提供一些分析AlphaGo打法的素材。

提问:关于AlphaGo的行业应用,有哪些您比较看好?今后Deepmind会不会在中国开展一些行业应用?

哈萨比斯:首先,AlphaGo背后的支撑技术相当多,目前在其他领域的应用还在早期探索阶段。我上午谈到的一些应用,只是AlphaGo围棋可能应用中的一小部分。在未来,我们肯定会将AlphaGo的技术在Google领域的应用,也许在中国也会有相应的业务。

提问:AlphaGo是否已经实现了无监督学习?它是否在向着强人工智能迈进?

席尔瓦:首先,AlphaGo使用的是增强学习的方法。我们只能说,AlphaGo在某一特定领域实现了自己的直觉和意识——这和我们所说的人类通过直接训练产生的意识可能有很大不同。因为它并非这种人类意识,因此有机会被应用到其他领域,不仅限于围棋。

提问:Hassabis先生上午提到,人工智能必须要被正确应用。那么这种“正确”包括哪些原则?

哈萨比斯:两个层面。第一,AI必须造福人类,应该用于类似科学、制药这类帮助人类的领域,而不能用于一些不好的事情,比如研发武器;第二,AI不能只为少数公司或个人所使用、,它应该是全人类共享的。

提问:上午的演讲中两位提到,这一代AlphaGo只需要一个TPU进行运算,而上一代和李世石对战时的AlphaGo则部署了50个TPU;但这代系统所需的计算量只是上一代的十分之一。为什么会出现这种比例上的差距?

席尔瓦:我来澄清一下。今年升级版的AlphaGo是在单机上运行的,它的物理服务器上部署了4个TPU。

提问:为什么AlphaGo下棋是匀速的?

席尔瓦:我们在对AlphaGo训练时就已经发现,它在对弈时进行的计算是持续的、稳定的,在总共的比赛过程中,它的计算量是恒定的。我们为AlphaGo制定了一种求稳的时间控制策略,也就是最大限度地利用自己的比赛时间,如果要将比赛时间的利用率最大化,匀速当然是最好的。

穆斯塔法等接受量子位等专访

提问:围棋相对简单,AI在现实中应用,有哪些阻碍?

穆斯塔法:我们对此有过深入思考,DeepMind创立的使命中指出,我们要打造通用型的人工智能技术,并接受相应的监督监管。此前我们和众多的机构共同成立AI联盟,以遵循伦理和安全的方式,进行算法的开发。

提问:技术落地过程中,如何避免侵犯隐私?

穆斯塔法:新技术的部署应用过程中,确实出现了跟监督监管机制不匹配的情况,现在科技的力量已经非常强大,在这种情况下,技术快速发展。所谓的数字化技术或设备进行平衡,是我们不断推进的事情。

我们希望加强医生患者对技术的信任,第一是展示临床使用的效果,第二我们一开始就公开表示,系统处理的数据,完全在监管范围之内,不会应用到其他业务之中。

提问:DeepMind目前是什么结构?

穆斯塔法:DeepMind分为两个结构,哈萨比斯负责研发,我负责商业应用。应用又分成三个组:1、Google组 2、医疗组,和英国NHS合作 3、马上要成立的能源组。我们希望与专家合作,获取必要的数据。

我们和Google不同部门合作,有不同的形式。

提问:为什么先把AI应用在医疗领域?而不是金融等

穆斯塔法:商业利润不是我们最重要的驱动力。我们选择行业从两点出发:首先,是否有助于技术研究;其次,是否有助于完成社会使命。

医疗行业季度的低效,技术停滞不前已经很久。

提问:一手研发,一手商业化,有没有隐藏的技术细节?

穆斯塔法:我们尽量多在开源的时候,提供有助于别人的资料。当然,我们不是100%都公布技术细节。当然我们会尽量多的做开源。

提问:驱动AI应用的数据是否足够,以及是所需要的数据?

穆斯塔法:我们做过一个统计。世界上,最优秀的放射科专家,一生也就看三万张X光照片,我们的算法可以看几百万张,能够开发出疑难杂症的意识和本能。我们能够对算法增强准确率,表现非常稳定。

人类专家看X光片,可能只有三分之二的共识达成。所以我们的想法是,用算法做X光片,然后配上不同的疾病专家,这样效果更好。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-05-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 单TPU运算,更强的策略/价值网络
    • AlphaGo Lee
      • AlphaGo Master
      • AlphaGo的算法
      • 新策略/价值网络如何炼成
      • 攻克智能,解决问题
      • 专访全文
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档