杨熹 - 个人中心 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

杨熹

LV1

发表了文章 2020-04-142020-04-14 11:50:38

《智能语音时代》

我们正在进入语音时代，从智能语音助手到智能家居，这些智能语音产品已经开始融入我们的生活了。

杨熹 2020-04-142020-04-14 11:50:38

神经网络、深度学习、人工智能

发表了文章 2020-04-142020-04-14 11:50:18

Q，Friend-Q，Foe-Q，Ce-Q 简要对比

它们都可以用于 multi-agent 环境，下面以 soccer game 为例。

杨熹 2020-04-142020-04-14 11:50:18

action、agent、friend、表格

发表了文章 2020-04-102020-04-10 15:57:47

SARSA 的 python 实现

设置一个 epsilon，如果随机产生的数字小于eps就随便弄个action探索一下，如果大于eps就利用环境信息挑选action：

杨熹 2020-04-102020-04-10 15:57:47

python

发表了文章 2020-04-102020-04-10 15:57:36

KWIK

KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning

杨熹 2020-04-102020-04-10 15:57:36

编程算法

发表了文章 2020-04-092020-04-09 11:59:42

什么是 Multiagent Q Learning

multiagent 是指同时有多个 agent 更新 value 和 Q 函数，主要的算法有：q learning， friend and foe q lea...

杨熹 2020-04-092020-04-09 11:59:42

agent、friend

发表了文章 2020-04-022020-04-02 11:15:41

读论文：《Correlated-Q Learning》

今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》，先记一下论文中的基础概念，然后再去深入解读。

杨熹 2020-04-022020-04-02 11:15:41

action、max、state、sum、vi

发表了文章 2020-03-262020-03-26 22:01:49

石头剪子布最优策略的线性解法

石头剪子布属于一种 zero-sum game，即一个人的 loss 是另一个人的 gain。

杨熹 2020-03-262020-03-26 22:01:49

sum、zero

发表了文章 2020-03-252020-03-25 18:56:01

maxmin 的代码实现

在解决石头剪子布这个问题的过程中，我们会用到一个 maxmin 函数，先来看看这个函数的理论基础。

杨熹 2020-03-252020-03-25 18:56:01

https、网络安全、游戏

发表了文章 2020-03-242020-03-24 16:58:17

如何应用 cvxopt 中的 solvers.lp

我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数：solvers.lp(c=c, G=G, h=h, A=A, b=b)。

杨熹 2020-03-242020-03-24 16:58:17

https、网络安全

发表了文章 2020-03-242020-03-24 16:57:08

cvxopt 示例简单讲解

Cvxopt 是基于 Python 语言的用于解决凸优化问题的免费包，可以用于求解纳什均衡问题的最优策略，好用但是不容易理解，

杨熹 2020-03-242020-03-24 16:57:08

https、网络安全、python

发表了文章 2020-03-202020-03-20 11:29:27

什么是 Q-learning？

它是强化学习中的一种 values-based 算法，最终是会学习出一个表格 Q-Table，例如在一个游戏中有下面5种状态和4种行为，则表格为：

杨熹 2020-03-202020-03-20 11:29:27

action、agent、greedy、state、table

发表了文章 2020-03-202020-03-20 11:27:09

强化学习基础环境 Gym 简介

OpenAI Gym 是一个最广泛使用的强化学习实验环境，内置上百种实验环境，比如一些简单几何体的运动，一些用文本表示的简单游戏，或者机械臂的抓取和控制等实验环...

杨熹 2020-03-202020-03-20 11:27:09

游戏

发表了文章 2020-03-202020-03-20 11:26:29

Q-learning 的本质是在干什么？

Q-learning 是要让 agent 通过不断地玩游戏，从环境给予的奖励反馈中学习到给定state下的最优 action。

杨熹 2020-03-202020-03-20 11:26:29

action、agent、probability、state

发表了文章 2020-03-202020-03-20 11:25:44

自动驾驶器环境介绍

在gym里有个自动驾驶的模拟器，它的任务是把乘客从一个地方接起，在另一个地方放下，在这个过程中需要小车至少遵守下面三个规则：

杨熹 2020-03-202020-03-20 11:25:44

action、state

发表了文章 2020-03-202020-03-20 11:25:36

Q-learning 的 python 实现

通过前面的几篇文章可以知道，当我们要用 Q-learning 解决一个问题时，首先需要知道这个问题有多少个 state，每个 state 有多少 action，...

杨熹 2020-03-202020-03-20 11:25:36

action、agent、function、state、table

发表了文章 2020-03-202020-03-20 11:25:07

Gym 的 Frozen Lake 环境介绍

上一篇文章有介绍gym里面env的基本用法，下面几行可以打印出一个当前环境的可视化：

杨熹 2020-03-202020-03-20 11:25:07

action、agent、render、sample、state

发表了文章 2020-03-202020-03-20 11:22:10

SARSA 算法简介

State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法，它的算法和公式和 Q learning 很像，...

杨熹 2020-03-202020-03-20 11:22:10

数据加密服务、编程算法

发表了文章 2020-03-202020-03-20 11:21:38

Deep Q-Learning 的数据预处理

Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action，但是当 state 空间很大时，如上百万的状态时，这个 ...

杨熹 2020-03-202020-03-20 11:21:37

游戏

发表了文章 2020-03-202020-03-20 11:16:57

python, gym, mujoco, mujoco-py 你们之间的关系让我很想吐槽

今天要用 Gym 里面的 LunarLander-v2 环境，结果报错，寻思着重新安装一下，于是一段漫长的连环坑就开始了。

杨熹 2020-03-202020-03-20 11:16:57

python

发表了文章 2020-03-202020-03-20 11:15:52

什么是 Deep Q learning 算法

上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况，因为它需要建立的 Q-table 对于较大维数的状态空间来说，计算是很难实现的，所以用 ...

杨熹 2020-03-202020-03-20 11:15:52