首页
学习
活动
专区
工具
TVP
发布

杨熹的专栏

专栏作者
302
文章
360261
阅读量
55
订阅数
《智能语音时代》
我们正在进入语音时代,从智能语音助手到智能家居,这些智能语音产品已经开始融入我们的生活了。
杨熹
2020-04-14
2.1K1
Q,Friend-Q,Foe-Q,Ce-Q 简要对比
它们都可以用于 multi-agent 环境,下面以 soccer game 为例。
杨熹
2020-04-14
5690
SARSA 的 python 实现
设置一个 epsilon,如果随机产生的数字小于eps就随便弄个action探索一下,如果大于eps就利用环境信息挑选action:
杨熹
2020-04-10
6650
KWIK
KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning
杨熹
2020-04-10
5670
什么是 Multiagent Q Learning
multiagent 是指同时有多个 agent 更新 value 和 Q 函数,主要的算法有:q learning, friend and foe q leaning,correlated q learning,在每个训练步骤,学习器会考虑多个 agent 的联合 states,actions,reward,来更新 q 值,其中会用到函数 f 选择价值函数。
杨熹
2020-04-09
8830
读论文:《Correlated-Q Learning》
今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。
杨熹
2020-04-02
5910
石头剪子布最优策略的线性解法
石头剪子布属于一种 zero-sum game,即一个人的 loss 是另一个人的 gain。
杨熹
2020-03-26
8960
maxmin 的代码实现
在解决石头剪子布这个问题的过程中,我们会用到一个 maxmin 函数,先来看看这个函数的理论基础。
杨熹
2020-03-25
6810
如何应用 cvxopt 中的 solvers.lp
我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数:solvers.lp(c=c, G=G, h=h, A=A, b=b)。
杨熹
2020-03-24
1.1K0
cvxopt 示例简单讲解
Cvxopt 是基于 Python 语言的用于解决凸优化问题的免费包,可以用于求解纳什均衡问题的最优策略,好用但是不容易理解,
杨熹
2020-03-24
1.2K0
什么是 Q-learning?
它是强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table,例如在一个游戏中有下面5种状态和4种行为,则表格为:
杨熹
2020-03-20
1.2K0
强化学习基础环境 Gym 简介
OpenAI Gym 是一个最广泛使用的强化学习实验环境,内置上百种实验环境,比如一些简单几何体的运动,一些用文本表示的简单游戏,或者机械臂的抓取和控制等实验环境。
杨熹
2020-03-20
1.2K0
Q-learning 的本质是在干什么?
Q-learning 是要让 agent 通过不断地玩游戏,从环境给予的奖励反馈中学习到给定state下的最优 action。
杨熹
2020-03-20
4620
自动驾驶器环境介绍
在gym里有个自动驾驶的模拟器,它的任务是把乘客从一个地方接起,在另一个地方放下,在这个过程中 需要小车至少遵守下面三个规则:
杨熹
2020-03-20
3580
Q-learning 的 python 实现
通过前面的几篇文章可以知道,当我们要用 Q-learning 解决一个问题时,首先需要知道这个问题有多少个 state,每个 state 有多少 action,并且建立一个奖励表格 P,维度是 action * 4,这4列分别标记着采取每个 action 的概率,采取每个 action 下一步会到达的 new state,采取每个 action 会获得的奖励,以及游戏是否结束。
杨熹
2020-03-20
8080
Gym 的 Frozen Lake 环境介绍
上一篇文章有介绍gym里面env的基本用法,下面几行可以打印出一个当前环境的可视化:
杨熹
2020-03-20
2.1K0
SARSA 算法简介
State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法,它的算法和公式和 Q learning 很像,但是 Q-Learning 是Off-Policy的,SARSA 是On-Policy 的,具体区别我们可以在下一节中再看。
杨熹
2020-03-20
1.2K0
Deep Q-Learning 的数据预处理
Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action,但是当 state 空间很大时,如上百万的状态时,这个 Q 表会很大,建立表格和更新表格就很低效,所以有了 Deep Q-Learning 的方法,在DQN 中不会建立Q 表,但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values,这样也可以找到最优决策。
杨熹
2020-03-20
6650
python, gym, mujoco, mujoco-py 你们之间的关系让我很想吐槽
今天要用 Gym 里面的 LunarLander-v2 环境,结果报错,寻思着重新安装一下,于是一段漫长的连环坑就开始了。
杨熹
2020-03-20
5.8K3
什么是 Deep Q learning 算法
上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况,因为它需要建立的 Q-table 对于较大维数的状态空间来说,计算是很难实现的,所以用 Deep Q Learning,即 Deep Learning + Reinforcement Learning 的方式来解决,下面是 deepmind 团队发表的 DQN 算法:
杨熹
2020-03-20
1K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档