腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

杨熹的专栏

专栏作者

302

文章

365102

阅读量

55

订阅数

maxmin 的代码实现

https 网络安全游戏

在解决石头剪子布这个问题的过程中，我们会用到一个 maxmin 函数，先来看看这个函数的理论基础。

2020-03-25

6880

强化学习基础环境 Gym 简介

OpenAI Gym 是一个最广泛使用的强化学习实验环境，内置上百种实验环境，比如一些简单几何体的运动，一些用文本表示的简单游戏，或者机械臂的抓取和控制等实验环境。

2020-03-20

1.2K0

Deep Q-Learning 的数据预处理

Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action，但是当 state 空间很大时，如上百万的状态时，这个 Q 表会很大，建立表格和更新表格就很低效，所以有了 Deep Q-Learning 的方法，在DQN 中不会建立Q 表，但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values，这样也可以找到最优决策。

2020-03-20

6790

DQN 的代码实现

算法来自：Volodymyr Mnih，Playing Atari with Deep Reinforcement Learning

2020-03-20

1.5K0

《不会被机器替代的人》：智能时代的生存策略

机器人短信游戏

一开始人们以为，高级的脑力劳动不会被替代，比如医生、律师，可是现在医生、律师的活都可以干，而且比人的效率高很多。

2018-12-13

5330

强化学习第5课：什么是马尔科夫决策过程

强化学习其他机器人游戏

它和我们前面讲的决策过程是有一样的结构，只不过它会有更多限制。这里同样也有 agent 和环境，只不过还就多了一个状态，用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为，并从环境中获得反馈。

2018-12-10

6740

强化学习第4课：这些都可以抽象为一个决策过程

强化学习机器人游戏

这个过程有两步，首先你的代理会观察环境的一些特质，有时是传感器感知到的，有些是输入的用户特征。然后代理会选择一个行为，将这个行为反馈给环境。之后代理不仅仅会收到在这个行为下的环境的反馈，同时还以某些方式，影响着环境改变着环境。例如，你不仅收到了用户是否点击了你的横幅广告的反馈，还影响着你的用户基础。

2018-12-07

3680

用一个小游戏入门深度强化学习

游戏强化学习编程算法机器学习

今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。

2018-10-09

1.2K0

什么是 Q-learning

游戏编程算法 http

在这个游戏中，agent 从一个给定的位置开始，即起始状态。在不穿越迷宫墙壁的前提下，在每个状态时，都可以选择上下左右四个方向走一步，或者原地不动，上下左右这四个动作的每一个都会将 agent 带到网格的一个新的单元格，即新的状态，在迷宫中有一个网格处有宝箱，这个网格就是目标状态，此外，在某些网格处还有一些炸弹，我们的目标是找到一条没有炸弹的路径，以最快的速度从起始状态到达目标状态。

2018-10-09

2K0

【LEETCODE】模拟面试-294.Flip Game II

编程算法游戏

图：新生大学 You are playing the following Flip Game with your friend: Given a string that contains only these two characters: + and -, you and your friend take turns to flip twoconsecutive "++" into "--". The game ends when a person can no longer make a move

2018-04-03

7040

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态