前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >读论文:《Correlated-Q Learning》

读论文:《Correlated-Q Learning》

作者头像
杨熹
发布2020-04-02 11:15:41
5960
发布2020-04-02 11:15:41
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

今天要读一篇 Amy Greenwald 的论文《Correlated-Q Learning》,先记一下论文中的基础概念,然后再去深入解读。

这篇论文的目标是:在 general-sum 马尔可夫博弈中学习均衡策略

纳什均衡:

  • 不同的 action 服从独立概率分布
  • 所有的 agents 都针对另一个概率进行优化

相关均衡:

  • agents 的概率分布之间存在依赖
  • 可以用线性规划来计算

Correlated-Q:

  • 在 general-sum 博弈中,相关均衡包含纳什均衡
  • 在 constant-sum 博弈中,相关均衡包含极小极大

马尔可夫博弈:

  • I,一组 players
  • S,状态
  • Ai(s),其中 s 属于S,i 属于 I,第 i 个玩家在状态 s 可用的 actions
  • P,概率转移函数
  • R(i),第 i 个玩家的奖励

马尔可夫博弈中的Q:

  • 用 State-action 向量,而不是 State-action 对
  • Qi(s, a) = (1-gamma) * Ri(s, a) + gamma * sum(P(s' given s,a) * Vi(s'))

Friend Q:

  • 所有 players 的奖励函数是一样的
  • Vi(s) = max Qi(s, a)

CE-Q:

  • 功利主义:最大化所有玩家的奖励总和-argmax sum of players rewards
  • 平等主义:最大化所有玩家奖励的最小值-argmax min
  • 共和主义:最大化所有玩家奖励的最大值-argmax max
  • 自由主义:最大化每个玩家的最大奖励-argmax rewards where result is a Correlated Equlibrium
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档