纵横十九道,棋子无大小,平均150回合的比赛,最大有3^361 种局面(大致为10^170),围棋一直被视为人工智能(AI)的最大挑战之一,但Google旗下的DeepMind声称其AI算法已经掌握了比赛。
据Nature报道,DeepMind宣布其程序AlphaGo击败了欧洲围棋冠军樊麾,五战五胜,没有任何让子。
DeepMind引以为傲的是AlphaGo并非基于规则的程序,而是以机器学习算法取胜。据其解释,AlphaGo将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述,处理层则包含数百万个类似于神经的连接点。
AlphaGo包括两种神经网络来判断每种下子策略的优劣,其中“策略网络”(policy network)负责选择下一步走法,抛弃明显的“臭棋”减少搜索的宽度,重点分析好棋,“价值网络”(“value network)用来计算局面,抛弃某些路线。
DeepMind用人类围棋高手的3000万步围棋走法训练神经网络,同时,AlphaGo还通过增强学习(Reinforcement Learning)自行研究新战略,利用50台机器,在它的神经网络之间运行了数千局围棋,反复试验调整连接点。
在和其他围棋程序的对抗中,AlphaGo的胜率为99.8%(495局中只输一局)。2016年3月,AlphaGo还将在韩国首尔公开对决韩国围棋选手李世石九段。李世石是近10年来获得世界第一头衔最多的棋手,但DeepMind联合创始人Demis Hassabis表示对AlphaGo很有信心(We’re pretty confident)。届时,我们可以一睹最牛围棋AI的极限。
Nature报道:http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234
Google博客:https://googleblog.blogspot.com/2016/01/alphago-machine-learning-game-go.html