首页
学习
活动
专区
工具
TVP
发布

杨熹的专栏

专栏作者
302
文章
365102
阅读量
55
订阅数
maxmin 的代码实现
在解决石头剪子布这个问题的过程中,我们会用到一个 maxmin 函数,先来看看这个函数的理论基础。
杨熹
2020-03-25
6880
强化学习基础环境 Gym 简介
OpenAI Gym 是一个最广泛使用的强化学习实验环境,内置上百种实验环境,比如一些简单几何体的运动,一些用文本表示的简单游戏,或者机械臂的抓取和控制等实验环境。
杨熹
2020-03-20
1.2K0
Deep Q-Learning 的数据预处理
Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action,但是当 state 空间很大时,如上百万的状态时,这个 Q 表会很大,建立表格和更新表格就很低效,所以有了 Deep Q-Learning 的方法,在DQN 中不会建立Q 表,但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values,这样也可以找到最优决策。
杨熹
2020-03-20
6790
DQN 的代码实现
算法来自:Volodymyr Mnih,Playing Atari with Deep Reinforcement Learning
杨熹
2020-03-20
1.5K0
《不会被机器替代的人》:智能时代的生存策略
一开始人们以为,高级的脑力劳动不会被替代,比如医生、律师,可是现在医生、律师的活都可以干,而且比人的效率高很多。
杨熹
2018-12-13
5330
强化学习第5课:什么是马尔科夫决策过程
它和我们前面讲的决策过程是有一样的结构,只不过它会有更多限制。这里同样也有 agent 和环境,只不过还就多了一个状态,用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为,并从环境中获得反馈。
杨熹
2018-12-10
6740
强化学习第4课:这些都可以抽象为一个决策过程
这个过程有两步,首先你的代理会观察环境的一些特质,有时是传感器感知到的,有些是输入的用户特征。 然后代理会选择一个行为,将这个行为反馈给环境。 之后代理不仅仅会收到在这个行为下的环境的反馈,同时还以某些方式,影响着环境改变着环境。 例如,你不仅收到了用户是否点击了你的横幅广告的反馈,还影响着你的用户基础。
杨熹
2018-12-07
3680
用一个小游戏入门深度强化学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。
杨熹
2018-10-09
1.2K0
什么是 Q-learning
在这个游戏中,agent 从一个给定的位置开始,即起始状态。 在不穿越迷宫墙壁的前提下,在每个状态时,都可以选择上下左右四个方向走一步,或者原地不动, 上下左右这四个动作的每一个都会将 agent 带到网格的一个新的单元格,即新的状态, 在迷宫中有一个网格处有宝箱,这个网格就是目标状态, 此外,在某些网格处还有一些炸弹, 我们的目标是找到一条没有炸弹的路径,以最快的速度从起始状态到达目标状态。
杨熹
2018-10-09
2K0
【LEETCODE】模拟面试-294.Flip Game II
图:新生大学 You are playing the following Flip Game with your friend: Given a string that contains only these two characters: + and -, you and your friend take turns to flip twoconsecutive "++" into "--". The game ends when a person can no longer make a move
杨熹
2018-04-03
7040
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档