杨熹

LV1
发表了文章

《智能语音时代》

我们正在进入语音时代,从智能语音助手到智能家居,这些智能语音产品已经开始融入我们的生活了。

杨熹
发表了文章

Q,Friend-Q,Foe-Q,Ce-Q 简要对比

它们都可以用于 multi-agent 环境,下面以 soccer game 为例。

杨熹
发表了文章

SARSA 的 python 实现

设置一个 epsilon,如果随机产生的数字小于eps就随便弄个action探索一下,如果大于eps就利用环境信息挑选action:

杨熹
Python
发表了文章

KWIK

KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning

杨熹
发表了文章

什么是 Multiagent Q Learning

multiagent 是指同时有多个 agent 更新 value 和 Q 函数,主要的算法有:q learning, friend and foe q lea...

杨熹
发表了文章

读论文:《Correlated-Q Learning》

今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。

杨熹
发表了文章

石头剪子布最优策略的线性解法

石头剪子布属于一种 zero-sum game,即一个人的 loss 是另一个人的 gain。

杨熹
发表了文章

maxmin 的代码实现

在解决石头剪子布这个问题的过程中,我们会用到一个 maxmin 函数,先来看看这个函数的理论基础。

杨熹
发表了文章

如何应用 cvxopt 中的 solvers.lp

我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数:solvers.lp(c=c, G=G, h=h, A=A, b=b)。

杨熹
发表了文章

cvxopt 示例简单讲解

Cvxopt 是基于 Python 语言的用于解决凸优化问题的免费包,可以用于求解纳什均衡问题的最优策略,好用但是不容易理解,

杨熹
发表了文章

什么是 Q-learning?

它是强化学习中的一种 values-based 算法,最终是会学习出一个表格 Q-Table,例如在一个游戏中有下面5种状态和4种行为,则表格为:

杨熹
发表了文章

强化学习基础环境 Gym 简介

OpenAI Gym 是一个最广泛使用的强化学习实验环境,内置上百种实验环境,比如一些简单几何体的运动,一些用文本表示的简单游戏,或者机械臂的抓取和控制等实验环...

杨熹
发表了文章

Q-learning 的本质是在干什么?

Q-learning 是要让 agent 通过不断地玩游戏,从环境给予的奖励反馈中学习到给定state下的最优 action。

杨熹
发表了文章

自动驾驶器环境介绍

在gym里有个自动驾驶的模拟器,它的任务是把乘客从一个地方接起,在另一个地方放下,在这个过程中 需要小车至少遵守下面三个规则:

杨熹
发表了文章

Q-learning 的 python 实现

通过前面的几篇文章可以知道,当我们要用 Q-learning 解决一个问题时,首先需要知道这个问题有多少个 state,每个 state 有多少 action,...

杨熹
发表了文章

Gym 的 Frozen Lake 环境介绍

上一篇文章有介绍gym里面env的基本用法,下面几行可以打印出一个当前环境的可视化:

杨熹
发表了文章

SARSA 算法简介

State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法,它的算法和公式和 Q learning 很像,...

杨熹
发表了文章

Deep Q-Learning 的数据预处理

Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action,但是当 state 空间很大时,如上百万的状态时,这个 ...

杨熹
发表了文章

python, gym, mujoco, mujoco-py 你们之间的关系让我很想吐槽

今天要用 Gym 里面的 LunarLander-v2 环境,结果报错,寻思着重新安装一下,于是一段漫长的连环坑就开始了。

杨熹
发表了文章

什么是 Deep Q learning 算法

上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况,因为它需要建立的 Q-table 对于较大维数的状态空间来说,计算是很难实现的,所以用 ...

杨熹

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券