杨熹的专栏

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

💡 社交互动怎样突破实时音视频卡顿与高流量消耗瓶颈？

🚀 短剧制作效率低下，AI如何辅助实现智能提效？

我们正在进入语音时代，从智能语音助手到智能家居，这些智能语音产品已经开始融入我们的生活了。

《智能语音时代》

它们都可以用于 multi-agent 环境，下面以 soccer game 为例。

Q，Friend-Q，Foe-Q，Ce-Q 简要对比

设置一个 epsilon，如果随机产生的数字小于eps就随便弄个action探索一下，如果大于eps就利用环境信息挑选action：

SARSA 的 python 实现

KWIK 算法来自论文 Knows What It Knows: A Framework For Self-Aware Learning

KWIK

multiagent 是指同时有多个 agent 更新 value 和 Q 函数，主要的算法有：q learning， friend and foe q leaning，correlated q learning，在每个训练步骤，学习器会考虑多个 agent 的联合 states，actions，reward，来更新 q 值，其中会用到函数 f 选择价值函数。


什么是 Multiagent Q Learning

今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》，先记一下论文中的基础概念，然后再去深入解读。

读论文：《Correlated-Q Learning》

石头剪子布属于一种 zero-sum game，即一个人的 loss 是另一个人的 gain。

石头剪子布最优策略的线性解法

在解决石头剪子布这个问题的过程中，我们会用到一个 maxmin 函数，先来看看这个函数的理论基础。

maxmin 的代码实现

我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数：solvers.lp(c=c, G=G, h=h, A=A, b=b)。

如何应用 cvxopt 中的 solvers.lp

Cvxopt 是基于 Python 语言的用于解决凸优化问题的免费包，可以用于求解纳什均衡问题的最优策略，好用但是不容易理解，

cvxopt 示例简单讲解

它是强化学习中的一种 values-based 算法，最终是会学习出一个表格 Q-Table，例如在一个游戏中有下面5种状态和4种行为，则表格为：

什么是 Q-learning？

OpenAI Gym 是一个最广泛使用的强化学习实验环境，内置上百种实验环境，比如一些简单几何体的运动，一些用文本表示的简单游戏，或者机械臂的抓取和控制等实验环境。


强化学习基础环境 Gym 简介

Q-learning 是要让 agent 通过不断地玩游戏，从环境给予的奖励反馈中学习到给定state下的最优 action。

Q-learning 的本质是在干什么？

在gym里有个自动驾驶的模拟器，它的任务是把乘客从一个地方接起，在另一个地方放下，在这个过程中 需要小车至少遵守下面三个规则：

自动驾驶器环境介绍

通过前面的几篇文章可以知道，当我们要用 Q-learning 解决一个问题时，首先需要知道这个问题有多少个 state，每个 state 有多少 action，并且建立一个奖励表格 P，维度是 action * 4，这4列分别标记着采取每个 action 的概率，采取每个 action 下一步会到达的 new state，采取每个 action 会获得的奖励，以及游戏是否结束。

Q-learning 的 python 实现

上一篇文章有介绍gym里面env的基本用法，下面几行可以打印出一个当前环境的可视化：

Gym 的 Frozen Lake 环境介绍

State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法，它的算法和公式和 Q learning 很像，但是 Q-Learning 是Off-Policy的，SARSA 是On-Policy 的，具体区别我们可以在下一节中再看。

SARSA 算法简介

Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action，但是当 state 空间很大时，如上百万的状态时，这个 Q 表会很大，建立表格和更新表格就很低效，所以有了 Deep Q-Learning 的方法，在DQN 中不会建立Q 表，但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values，这样也可以找到最优决策。

Deep Q-Learning 的数据预处理

今天要用 Gym 里面的 LunarLander-v2 环境，结果报错，寻思着重新安装一下，于是一段漫长的连环坑就开始了。

python, gym, mujoco, mujoco-py 你们之间的关系让我很想吐槽

上一篇文章中我们知道了 Q-learning 不适合状态空间很大的情况，因为它需要建立的 Q-table 对于较大维数的状态空间来说，计算是很难实现的，所以用 Deep Q Learning，即 Deep Learning + Reinforcement Learning 的方式来解决，下面是 deepmind 团队发表的 DQN 算法：

什么是 Deep Q learning 算法

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了杨熹的专栏专栏，为你提供了杨熹的专栏的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐