前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >柯洁又输了,关于人工智能AlphaGo你需要知道些什么

柯洁又输了,关于人工智能AlphaGo你需要知道些什么

作者头像
CDA数据分析师
发布2018-02-26 15:38:07
7260
发布2018-02-26 15:38:07
举报

原作者 Mirek Stanek

编译 CDA 编译团队

本文为  CDA 数据分析师原创作品,转载需授权

前言

本月 23 日- 27 日,在乌镇主办“中国乌镇·围棋峰会”中,备受瞩目的要数中国围棋现役第一人、天才少年柯洁与Google AlphaGo(阿尔法狗)人工智能机器人的巅峰对决。AlphaGo与柯洁对弈的三局比赛,分别于 5 月 23 、25、27 日进行。

在 23 日和 25 日的对决中,柯洁虽然发挥神勇,但还是两局均战败。AlphaGo 2-0 领先,已经赢得了三番棋的胜利。

对于人类来说,这看上去不太妙。

那么,AlphaGo 究竟是什么?关于 AlphaGo 我们需要了解些什么呢?

AlphaGo 和数字

AlphaGo 是由 Google DeepMind 开发的围棋程序,并在2015年欧洲围棋锦标赛中它以 5:0 赢得了樊麾,在历史上第一次打败顶尖职业围棋选手。

在 AlphaGo 出现在公众视野之前,有人预测根据如今的科技水平出现具有 AlphaGo 水平(击败人类职业棋手)的人工智能大约还需要 10 年的时间。

早在 20 年前,人工智能就在国际象棋上战胜了人类,而东方古老的围棋似乎成了人类最后的坚持。

但事实让人类失望了。

一切皆关于其复杂性。

围棋和象棋都是完全信息博弈游戏,这意味着每个玩家都完全清楚之前发生的所有事件。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有 b 的 d 次方个可能分支,在国际象棋中有 b≈35,d≈80,即10¹²³ 种;而在围棋中 b≈250,d≈150 即10³⁶⁰ 种。多核兆赫处理器一般可以每秒钟进行 10⁹ 次操作,这意味着计算所有可能的步数的时间不可估量——数学就是这么残酷。

AlphaGo 的最高目标是有效的减少搜索路径数量,具体是这在合理的时间内( AlphaGo 每一步计算时间为 5 秒),计算出可能的步数(直到游戏结束)。

为了对博弈状态进行预判,AlphaGo 使用蒙特卡罗树搜索(MCTS)——通过对搜索路径的随机抽样来扩展搜索树来分析最可能赢的选项。在博弈游戏中,MCTS 的应用是基于各种玩法,通过随机选择的方式来玩到最后。每一次的结果都被用来对博弈树的节点进行加权,这样更好的节点更有可能在之后的博弈中被选择。

通过额外的策略(例如预测职业棋手的动作)强化 MCTS ,使其达到更强的水平。

进一步的改进则基于良好的预先训练的深卷积网络。这些被广泛应用于图像分类、人脸识别或游戏中。

在 AlphaGo 中使用的神经网络的目标是:有效位置评估(价值网络)和行为抽样(策略网络)。

这也意味着 AlphaGo 的下棋方式除了学习别人的对局外,还可以自己跟自己下棋,通过对不同下法产生结果的分析来改善自己的下棋方式。这也就是说,学习时间长、学习案例好的 AlphaGo 赢的可能性更大一些。

策略网络

在机器学习中为了训练策略网络,有以下步骤。

第一阶段:

监督学习(SL),即模仿学习。通过在 KGS (网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是 AlphaGo 最像人的地方,目标是去学习那些顶尖高手的妙手。AlphaGo 落子选择器能正确符合 57% 的人类高手。(其他研究团队的最高正确率为44.4%)。

第二阶段:

强化学习(RL),即自主学习。尽管SL策略网络在预测下一步时很有效,但 RL 有助于预测最佳的(获胜)步。在这一阶段,AlphaGo 跟自己对弈,自己训练自己。

强化学习与监督学习策略对决取胜率高达 80% ,与 Pachi 获胜率为 85% ,Pachi 是一个基于蒙特卡罗树搜索法的人工智能,在 KGS 业余段位排名第二。以往 SL 与 Pachi 对决胜率仅为 11% 。

价值网络

最后阶段的训练集中在位置评估(估计当前步数获胜的概率)。基于 KGS 数据集的训练会导致过度拟合(价值网络倾向于记住游戏结果,而不是采取新的步数),因此避免这一现象,新的训练是进行自我博弈(有 3000 万个不同的位置,每个都从单独的游戏中取样)。

经过训练的价值函数比使用走棋策略的蒙特卡罗更精确,它的单次计算也与使用强化学习的蒙特卡罗的计算更相似(但计算量会少 15000 次)。

策略和价值网络搜索

AlphaGo 在蒙特卡罗搜索树中使用了策略和价值网络的组合。游戏树在模拟中被搜索,由以下阶段组成:

在获取棋局信息后,AlphaGo 会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo 的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

结语

AlphaGo 在近几年频频出现在人们的视野里。和其他的围棋人工智能机器人进行了较量,在总计 495 局中只输了一局,胜率是 99.8% 。它甚至尝试了让 4 子对阵 CrazyStone、Zen 和 Pachi 三个先进的人工智能机器人,胜率分别是 77% 、86% 和 99% 。

2015 年,欧洲围棋锦标赛中它以 5:0 赢得了樊麾。这是第一次人工智能在人类最复杂的博弈游戏中挑战最高级别的人类选手。

2016 年 3 月以 4:1 的比分战胜了韩国选手李世石,之后 AlphaGo 以 Master 作为 ID 在网络围棋平台上战胜了众多知名选手取得了 60 连胜的战绩。

而这次在“中国乌镇·围棋峰会”与中国围棋现役第一人柯洁三番棋对决中,更是取得了前两局的胜利。

未来即将来临。

ref:

https://machinelearnings.co/understanding-alphago-948607845bb1

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档