首页
学习
活动
专区
工具
TVP
发布

数据魔术师

专栏作者
290
文章
740100
阅读量
202
订阅数
强化学习DQN玩转FlappyBird|前景提要
强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验。
用户1621951
2020-11-03
1.4K0
10分钟教你用Python做个打飞机小游戏超详细教程
这次还是用python的pygame库来做的游戏。关于这个库的内容,读者可以上网了解一下。本文只讲解用到的知识。代码参考自网上,自己也做了一点代码简化。尽量把最核心的方面用最简单的方式呈现给大家,让大家尽快掌握这个游戏的框架。至于那些华丽的功能,大家在弄懂了核心知识以后,再去添加也是非常easy的。
用户1621951
2019-10-18
2K1
10分钟教你用C++写一个贪吃蛇附带AI功能(附源代码详解和下载)
刚学完C++。一时兴起,就花几天时间手动做了个贪吃蛇,后来觉得不过瘾,于是又加入了AI功能。希望大家Enjoy It.
用户1621951
2019-10-18
1.6K0
10分钟用Python编写贪吃蛇小游戏
前不久我们公众号发布了一篇C++编写贪吃蛇小游戏的推文,反响空前。看来大家对这类简单易上手小游戏还是很喜爱的。
用户1621951
2019-10-18
1.4K0
AlphaZero登上《科学》封面:一个算法“通杀”三大棋,完整论文首次发布
不仅会下围棋,还自学成才横扫国际象棋和日本将棋的DeepMind AlphaZero,登上了最新一期《科学》杂志封面。
用户1621951
2019-10-18
6380
强化学习读书笔记(5)|蒙特卡洛方法(Monte Carlo Methods)
前面两章都假设我们已知MDP的分布p(s'r|s,a)(model),但有时这一点难以做到,或者说这种Markov假设可能是不合理的,那么我们只能从真实/模拟环境中去获取这些知识。蒙特卡洛方法只需要经验知识,即:来自线上或者模拟环境交互过程的样本序列(包括状态序列、动作序列、奖励序列)。“蒙特卡洛”这个词被广泛用在利用大量随机元素作估计的地方。在这里我们用它来表示基于完全return平均值的方法。
用户1621951
2019-08-26
6240
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档