首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Q,Friend-Q,Foe-Q,Ce-Q 简要对比

Q,Friend-Q,Foe-Q,Ce-Q 简要对比

作者头像
杨熹
发布2020-04-14 11:50:18
5710
发布2020-04-14 11:50:18
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

它们都可以用于 multi-agent 环境,下面以 soccer game 为例。

1. Q-learning vs Friend-Q

Q-learning 只是单独地考虑一个 player 的 Q 值,所以在建立Q表时就建立一个player A 的。 Friend-Q 是假设对手像个朋友一样,他会最大化大家的利益,那么就在 Q 的基础上添加 player B 的action空间即可:

left:Q,right:friend-Q


2. Friend-Q vs Foe-Q

Foe 是指对手就是完全的对抗状态,他会让另一方的利益最小,尽管这个决策对自己也不利。

Foe-Q 也要同时考虑双方的 action 空间,所以Q表和Friend-Q是一样的形式。

差别在于更新 Q 表时需要求解一个 maximin 问题:


3. Foe-Q vs Ce-Q

Ce-Q 和前三个的区别是,在建立Q表时,要同时建立两个表: 每个表都会同时考虑二者的action空间

它在更新 Q 表时自然也是要同时更新两个表格的, 更新的值是通过一个 linear programming 求解的,函数的输入也是两个表格

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Q-learning vs Friend-Q
  • 2. Friend-Q vs Foe-Q
  • 3. Foe-Q vs Ce-Q
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档