人工智能–AlphaGo浅析(4)

人工智能之AlphaGo浅析(4)

前言: 蒙特卡罗树搜索MCTS支撑着整个算法框架,相当于AlphaGo(阿尔法狗)的骨骼,深度学习在复杂棋局面前寻找尽可能优的策略,相当于AlphaGo(阿尔法狗)的大脑,强化学习源源不断地提供新鲜的训练数据,相当于AlphaGo(阿尔法狗)的血液,。三者相辅相成!

通过前面几篇介绍,我们知道, AlphaGo在MCTS的框架下引入两个卷积神经网络policy network和value network以改进纯随机的蒙特卡罗模拟,并借助监督学习和强化学习来训练这两个网络。

AlphaGo是一套设计精密的卓越工程,达到了历史性的业界里程碑,AlphaGo的创新点在于不同机器学习技术的整合:

1)算法整合:RL+DL+MCTS;

2)网络整合:policy+value network;

3)学习整合:棋谱学习+自我学习;

4)计算整合:CPU+GPU;

另外,AlphaGo项目整合了20名世界顶级的计算机科学家和机器学习专家,全世界最浩大的谷歌后台计算平台供给DeepMind团队使用,不但有世界顶级的机器学习技术,也有非常高效的代码,充分发挥了谷歌世界最宏伟的计算资源,为为AlphaGo获胜提供了强劲的技术和资源保证。

AlphaGo原理简介:

策略网络:

AlphaGo的策略网络也叫落子选择器。在落子选择器中已经输入了百万个围棋高手的对弈棋谱,供Alphago学习。

在Alphgo完成棋谱学习后,在跟人类旗手下棋时,落子选择器会根据新的棋面预测旗手可能会在哪个地方落子。

除了AlphaGo “自学棋谱”长进“棋艺”外,AlphaGo还可以“自练功夫”来提高“棋艺”。AlphaGo选择2个落子选择器分别预测黑白两方的下一步落子,2个落子选择器开始了相互对战,AlphaGo根据胜负结果来修正自己的预测。这样AlphaGo可以通过与自己对弈来不断提高自己的技艺水平,就像周伯通练“左右手互搏”。

价值网络:

AlphaGo的价值网络也叫棋局价值评估器。根据AlphaGo自己跟自己对弈的无数棋局的结果,DeepMind团队训练棋局价值评估器对一个局面的黑白胜负进行评估,即开发了一套围棋评分系统。

训练步骤:

为了训练Alphago,需要结合监督学习和强化学习,训练步骤如下:

1)利用大量专业棋手的棋谱训练策略网络和快速走子网络,其中策略网络使用深度卷积神经网络来训练学习;

2) 基于强化学习来提升策略网络的性能;

3) 通过大量的自我对弈,实现基于深度强化学习的价值网络学习.

实战过程:

1)依据当前对弈盘面进行特征提取;

2)通过落子选择器来产生下一步棋的几个备选走法(计算落子概率);

3)得到下一步棋的几个备选走法后,AlphaGo利用MCTS算法确定其中的最优走法;

4)利用棋局价值评估器和快速走子网络,对于这几个备选走法进行相加得分评估,得到相应的最优走法;

5)利用一定的权重组合2)和3)两个最优走法,从而产生最终的最优走法。

小结:

Alphago借助于深度强化学习和蒙特卡罗树搜索,已经超越已超过人类职业围棋顶尖水平,其核心思想是通过深度学习之卷积神经网络来构建价值网络和策略网络,分别对搜索深度和宽度进行约减,使得搜索效率大幅度提升,胜率估计更加精确。

(未完待续)

------以往文章推荐-----

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180518G2139300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券