人工智能–AlphaGo浅析(5)

人工智能之AlphaGo浅析(5)

前言: AlphaGo(阿尔法狗)通过2个“大脑”(2个多层神经网络)合作来改进下棋。借助价值函数和策略函数来减少搜索深度和搜索宽度,在尽可能减少搜索量和尽可能逼近最优解之间做到很好的平衡。因此AlphaGo的精髓就是在策略网络和价值网络上。AlphaGo先后战胜了围棋世界冠军李世石和柯洁,其棋力已经超过人类职业围棋顶尖水平。人们不禁会问AlphaGo超越了人类的智能了吗?

通过前面几篇介绍,我们知道了AlphaGo的关键算法、神经网络和基本原理。AlphaGo先后战胜了围棋世界冠军李世石和柯洁,其棋力已经超过人类职业围棋顶尖水平,今天我们分析一下AlphaGo成功的原因以及AlphaGo不能超越人类智能的原因。

AlphoGo成功原因:

AlphaGo具有某种程度的超强学习能力,能够轻松地学习人类有史以来所有下过的棋谱,并从人类的经验中学到致胜秘诀。

AlphaGo成功离不开深度神经网络。传统的计算机围棋方法是基于规则的,只能识别固定的棋路,类似于背棋谱。而基于深度学习的AlphaGo能自动提取棋谱局面特征并将其有效地组合在一起, 极大增强了对棋谱的学习能力。其次,局面评估也是AlphaGo成功的关键。价值网络和快速走子网络在局面评估时的互为补充(0.5 VS 0.5), 能够较好地应对对手下一步棋的不确定性, 对得到更加精确的评估结果至关重要。AlphaGo创新点在于深度学习、强化学习和模特卡罗树树搜索的算法结合,策略网络和价值网络的结合,棋谱学习和自我学习的结合,以及CPU和GPU计算能力的结合。硬件配置的大幅提升功不可没。AlphaGo采用了异步多线程搜索, 用CPU执行模拟过程, 用GPU计算策略网络和价值网络。最终单机版本AlphaGo使用了48个CPU和8个GPU, 分布式版本AlphaGo则采用了1202个CPU和176个GPU。正是这些计算机硬件的支持, 才得以让AlphaGo发挥出强大实力

谷歌研发的AlphaGo(阿尔法狗)是属于通用的人工智能,不同于IBM 研发的Deep Blue(深蓝),它是属于狭义人工智能。AlphaGo(阿尔法狗)既能直接从输入和经验中学习(没有既定程序或者规则可循),又能将这个通用的学习系统(相同的算法)用于不同的领域或任务中,甚至是一些全新领域或任务。

不能超越人类智能的原因:

很显然,AlphaGo下围棋的逻辑从人类角度来看,肯定不够完美。

1)AlphaGo的MCTS框架与人类棋手的布局谋篇完全没有相同的地方。AlphaGo只是暴力的计算概率的权衡。策略网络学习了大量人类围棋高手的策略经验,可以非常好的判断应该走哪一步,但并不是基于对围棋的理解和逻辑推理,而是基于策略网络学到的人类围棋高手中90%的人都会走这一步。策略网络则根据学习到的经验给出当前局面的胜负优势的判断,但是它同样无法给出一个逻辑性的回答,而只能根据历史经验,给出这种局面赢的概率。而人类思维是非常复杂的,并不是概率性的。因此,AlphaGo从大量人类经验中学到了大量的相关性或概率性的规律,并没有学到任何的因果性或其他的规律。这应该是 AlphaGo 和人类棋手最本质的区别。

2)AlphaGo在训练过程中,假如低质量的样本占据了绝大多数,训练样本分布的不均衡可能会导致AlphaGo实战的失败。蒙特卡罗树搜索本质上是一种随机搜索, 只能在一定的概率下得到正确的搜索结果, 相比于人类基于逻辑推理的方式, 可能会对局势产生非准确的判断。

3)AlphaGo在“自我互博”过程中使用的是强化学习DL。而强化学习的一个突出问题是存在学习盲区, 即存在着没有被探索到的部分状态空间。假如人类棋手找到了AlphaGo学习的盲区,就能找到相应的与其对弈的策略。AlghaGo跟李世石第四局的失利,也许说明了AlphaGo存在着学习盲区。

4) AlphaGo的价值网络极大提高了局势判断精度,但离准确判断局势还有一定差距。神经网络有时还会出现一些怪异或错误的判断,有时训练样本会不足。价值网络仍然需要依靠快速走子网络来判断局势。“打劫”可能会让价值网络崩溃或失效,虽然此时可以靠快速走子网络来弥补,但是没有了价值网络的AlphaGo棋技水平会急速下降到职业3-5段左右。

5)人类在围棋上沉淀的经验决定了AlphaGo 能力的上界,这个上界可能会高于人类自身顶尖高手。但是当人类不能继续发展围棋,AlphaGo的能力也就会止步不前。AlphaGo的机制决定了其肯定是跟着人类掉进某些局部最优。如果人类不能不断地开拓围棋新的风格和流派或找到的新的局部最优,AlphaGo也就无法突破。也就意味着,AlphaGo在围棋上超越人类智能应该还没有实现

6)AlphaGo需要海量训练样本才能学到有用的东西,而这正是 AlphaGo目前主要依赖的方法。自我学习成为AlphaGo的主要学习方式。如果对于围棋这样相对简单的环境中,自我学习还能应对。但在更加复杂环境中,比如商业、贸易、政府和战争等决策上,穷尽人类历史也找不到多少精确的训练集,再加上问题本身的复杂性远超过基于完全信息博弈的围棋。在这种情况下,恐怕很难学到足够准确的策略网络和价值网络。这就使得AlphaGo可能是完全无法解决这些复杂问题。

结束语:

Alphago是深度强化学习DRL和蒙特卡罗树搜索MCTS相结合的产物,是AI人工智能的产物。Alphago的成功依赖于大量样本数据训练、计算机硬件能力提升和人类精心设计的算法程序。Alphago虽然战胜了人类围棋顶级高手,但它还是人类智慧的胜利。AlphaGo属于通用人工智能,除了围棋外,还可以用在不同的领域或任务中。目前人工智能尚没有独立的思维能力和学习能力,也远没到威胁人类生存发展的地步。同时,我们要清楚认识到我国与国外在人工智能方面的差距。因此,我们需要更加深入和广泛地学习和研究人工智能的前言理论和基础算法,以及面向载体的创新应用,希望我国人工智能的理论和应用水平都能达到新的高度具备国际影响力

BTW: AI人工智能崛起是好是坏,目前无法界定。但是我们应该竭力确保:人工智能朝着对我们自己、后代以及生存环境有利的方向发展,这应该是人工智能发展的大原则大方向

(完)

------以往文章推荐-----

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180519G1MHK100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券