棋类游戏一直被视为顶级人类智力试金石,人工智能挑战棋类大师的好戏也接连上演,但按照现在人工智能的发展,人工智能在围棋上几乎击败全人类,是怎样做到的呢?
人工智能围棋赛手运用到的深度神经网络是 Policy Network(策略网络)以及 Value Network(值网络)。策略网络和值网络任务在于合作挑选出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。策略网络负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。这样 AI 就不用给每一步以同样的重视程度,可以重点分析那些有戏的棋着。值网络负责减少搜索的深度——AI 会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑。更通俗的解释是,策略网络着眼于当下,选择下一步走法。值网络思考得更加长远,预测棋局的走向。DeepMind 用人类围棋高手的两千万步围棋走法训练 AI,这种方法称为监督学习(supervised learning),然后让 AI 和自己对弈,这个流程称之为强化学习(reinforcement learning)。征服围棋最重要的意义在于,这些人工智能赛手不仅是遵循人工规则的“专家”系统,它还通过深度学习技术自行掌握了如何赢得围棋比赛。
深度学习是机器学习的一个分支,机器学习这个概念认为,对于待解问题,无需编写任何专门的程序代码,只需要输入数据,算法会在数据之上建立起它自己的逻辑。深度学习强调的是使用的模型,最流行的是被用在大规模图像识别任务中的卷积神经网络,有了这些神经网络,再加上强大的计算能力,必然能赢过人类。