首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Q,Friend-Q,Foe-Q,Ce-Q 简要对比

    Q-learning vs Friend-Q Q-learning 只是单独地考虑一个 player 的 Q 值,所以在建立Q表时就建立一个player A 的。...Friend-Q 是假设对手像个朋友一样,他会最大化大家的利益,那么就在 Q 的基础上添加 player B 的action空间即可: left:Q,right:friend-Q ? ---- 2....Friend-Q vs Foe-Q Foe 是指对手就是完全的对抗状态,他会让另一方的利益最小,尽管这个决策对自己也不利。...Foe-Q 也要同时考虑双方的 action 空间,所以Q表和Friend-Q是一样的形式。 差别在于更新 Q 表时需要求解一个 maximin 问题: ? ? ? ---- 3....Foe-Q vs Ce-Q Ce-Q 和前三个的区别是,在建立Q表时,要同时建立两个表: 每个表都会同时考虑二者的action空间 ?

    60620
    领券