游戏AI小试牛刀(2)

上次我们说到用深度学习来做斗地主游戏AI的一个实验项目,这次我们来说说技术实现层面的一些问题。

对于这样一个应用场景来说,我们是可以把它当做类似于图片分类的场景去做的。玩家的手牌、牌池里的牌、上下家打出的牌,这些都可以向量化成为用来描述盘面信息的输入向量。或者简单理解成,用这些向量来画一幅图片,图片的内容就是盘面描述。

既然是图片,显然我们可以考虑使用卷积网络来进行处理,设计合适的卷积核来做特征提取,并通过训练来得到合适卷积核参数。

玩过卷积网络的人应该不会陌生,它通过一层一层的卷积核把一个图片进行逐层扫描处理,并在后端输出相应的预测结果。在这样一个训练场景中,我们可以认为一个赢家在短暂的牌局中,每一步都是一个“正样本”——即在当前的牌局情况下,赢家的出牌是一个“好”的出牌样例。那么这个“好”的出牌样例可以作为预测的对象。

每一轮的牌局都不相同,每一轮的出牌内容也不相同,这样就形成了用不同轮的牌局画像信息作为输入,每一轮的赢家出牌作为输出的多个训练样本。

在这个输入的向量中,我们用一个7*15的矩阵来表示其内容,其中:

第一行:代表玩家现在的手牌状态;

第二行:代表玩家上轮出牌记录;

第三行:代表上家上轮出牌记录;

第四行:代表下家上轮出牌记录;

第五行:代表玩家的所有出牌记录;

第六行:代表上家的所有出牌记录;

第七行:代表下家的所有出牌记录;

每一行的15个向量维度分别指A~K以及小王大王的牌数量。

在通过卷积网络后,会形成一个55维的向量:

前面的13个就是A~K各有4个独热维度5种状态,分别表示出0张牌、1张牌……4张牌。后面的三个维度分别指是否出小王,是否出大王,是否过牌。

一旦这种方式确定以后,就可以采用传统的交叉熵损失函数进行训练了,这点和图片的分类预测差别不大。

当训练结束后,在工作时,输入就是盘面信息向量,那么输出的预测值就是机器人认为的最优的出牌策略。这里有个小技巧,就是输出的向量会产生一个排列组合,在这个排列组合中要过滤掉那些不符合规则以及手牌当前不满足的出牌方案,其余的才是真的可以出的牌,选那个precision最高的方案就可以了。

好了,这就是卷积网络打斗地主的一种解决方案。相信未来在众多的方案中会有更多的优秀模型脱颖而出。

原文发布于微信公众号 - 奇点(qddata)

原文发表时间:2017-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Petrichor的专栏

论文阅读: R-CNN

版权声明:转载请注明出处 https://blog.csdn.net/JNingWei/article/details/80189868 ...

1542
来自专栏CSDN技术头条

深入浅出LSTM神经网络

【编者按】使用前馈卷积神经网络(convnets)来解决计算机视觉问题,是深度学习最广为人知的成果,但少数公众的注意力已经投入到使用递归神经网络来对时间关系进行...

2259
来自专栏AI启蒙研究院

进击的TensorFlow

622
来自专栏AI科技评论

干货 | 谷歌 AI:语义文本相似度研究进展

本文为雷锋字幕组编译的技术博客,原标题 Advances in Semantic Textual Similarity。

2134
来自专栏人工智能

深度学习NLP最佳方法

2017年7月26日更新:有关其他上下文,HackerNews对此帖的讨论。

3769
来自专栏AI研习社

Quora Question Pairs 竞赛冠军经验分享:采用 4 层堆叠,经典模型比较给力

AI 研习社按:今天要介绍的比赛是 Quora Question Pairs,该比赛的目的是将具有相同意图的问题正确配对。最近本次竞赛的冠军在 Kaggle 社...

46611
来自专栏图形学与OpenGL

实验三 区域四连通填充算法

2631
来自专栏AI科技评论

洞见 | 生成对抗网络GAN最近在NLP领域有哪些应用?

AI科技评论按:本文作者莫驚蟄,原文载于知乎,获授权转载。 我来答一答自然语言处理方面GAN的应用 直接把GAN应用到NLP领域(主要是生成序列),有两方面的问...

4784
来自专栏机器之心

可视化语音分析:深度对比Wavenet、t-SNE和PCA等算法

选自Medium 作者:Leon Fedden 机器之心编译 参与:Nurhachu Null、刘晓坤 这篇文章基于 GitHub 中探索音频数据集的项目。本文...

74413
来自专栏企鹅号快讯

每周论文清单:知识图谱,文本匹配,图像翻译,视频对象分割

这是 PaperDaily 的第31篇文章 [ 自然语言处理 ] Knowledge Graph Embedding: A Survey of Approach...

27210

扫码关注云+社区

领取腾讯云代金券