棋类游戏一直被视为顶级人类智力试金石,人工智能挑战棋类大师的好戏也接连上演,但按照现在人工智能的发展,人工智能在围棋上几乎击败全人类,是怎样做到的呢?

酒当歌酒当歌提问于
初冬微笑已冻僵回答于

人工智能围棋赛手运用到的深度神经网络是 Policy Network(策略网络)以及 Value Network(值网络)。策略网络和值网络任务在于合作挑选出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。策略网络负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。这样 AI 就不用给每一步以同样的重视程度,可以重点分析那些有戏的棋着。值网络负责减少搜索的深度——AI 会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑。更通俗的解释是,策略网络着眼于当下,选择下一步走法。值网络思考得更加长远,预测棋局的走向。DeepMind 用人类围棋高手的两千万步围棋走法训练 AI,这种方法称为监督学习(supervised learning),然后让 AI 和自己对弈,这个流程称之为强化学习(reinforcement learning)。征服围棋最重要的意义在于,这些人工智能赛手不仅是遵循人工规则的“专家”系统,它还通过深度学习技术自行掌握了如何赢得围棋比赛。

回答过的其他问题

深度学习的原理和具体实现是什么?

这个。。。说不清楚,不过你可以学习一下腾讯云的这个TensorFlow 系列实验,TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。它由 Google 的团队开发出来,用于机器学习和深度神经网络方面的研究。本系列包含三个阶段,...... 展开详请

云服务器送虚拟主机吗?

不送! 自己安装环境,想要多少虚拟主机就有多少! 可以选择这里的镜像直接来配置! https://market.cloud.tencent.com/list?cid=58... 展开详请

是怎么回事备按下来了 区域名还是没办法使用?

耐心等待信息同步,腾讯云从工信部获取数据需要时间,有数据了再到解封也需要时间!

PySpark WARN消息

为什么HealthKit的每分钟步数和每小时步数不同?

查询谓词有选项(.strictStartDate,.strictEndDate),用于确定查询是否找到严格在区间内的所有样本(严格停止和开始日期),或者是否包含在区间外停止或开始的样本。 我怀疑你的步骤样本可能跨越分界线,并且取决于你如何定义间隔,这将产生显着的差异。 我使用...... 展开详请

重置AVAudioEngine

它看起来像你可能只需要移动attachconnectengine.start功能出sound1Play功能,并把它们放进viewDidLoad中。目前,您将每个操作连接节点,并且还会多次重新启动引擎。

所属标签

扫码关注云+社区