Monte Carlo Tree Search (MCTS) 蒙特·卡罗尔树搜索

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/Solo95/article/details/103218744

  • 为什么要学习MCTS
  • 一部分原因是过去12年AI最大的成就莫过于Alpha Go,一个超越任何人类的围棋玩家
  • 引入基于模型的RL思想和规划(planning)的好处

Introudction

Model-Based Reinforcement Learning

  • 前面的博文:从经验中直接学习价值函数或者策略
  • 这篇博文:从经验中直接学习模型(Transition or Reward model)
  • 并且使用规划(planning)来构建一个价值函数或者策略
  • 整合学习和规划到一个单独的架构

planning,取一个已知的world模型然后使用价值迭代或者策略迭代或者动态规划,尝试去计算出一个用于这些给定模型的策略。

Model-Based and Model-Free RL

  • Model-Free RL
    • 没有模型
    • 从经验中学习价值函数(和/或策略)
  • Model-Based RL
    • 从经验中学习一个模型
    • 从该模型中规划出价值函数(和/或策略)

当你有一个simulator(模拟器)的时候,你可以从模拟器中获取经验,然后:

  • DP
  • model-free RL
  • policy search

Model-Based RL

Advantages of Model-Based RL

  • 优点:
    • 能高效地使用监督学习的方法去学习模型
    • 可以推理模型不确定性(像用于探索/利用权衡的上界置信边界(upper confidence bound))
  • 缺点:
    • 首先要学习出一个模型,然后再构建一个价值函数 $$这样会有两个近似误差来源

变迁动态,大体上会被认为随机的,所以需要能产生分布预测的监督学习。奖励模型可以被看出是标量,所以可以使用非常经典的基于回归的方法。

还有一个需要提及的model-based reinforcement learning的优势,在迁移方面是非常强大的。Model-Based RL的一个好处是如果你学习了一个world的动态模型,如果有人更改了奖励函数,隐含着你可以做零改动迁移(zero shot transfer),直接用原来的模型再加上新的奖励函数去计算一个新的计划。

MDP Model Refresher

  • 一个模型M\mathcal{M}M表示了一个被η\etaη参数化的MDP<S,A,P,R><\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R}><S,A,P,R>
  • 假定状态空间S\mathcal{S}S和动作空间A\mathcal{A}A是已知的
  • 那么一个模型M=<Pη,Rη>\mathcal{M}=<\mathcal{P}_\eta,\mathcal{R}_\eta>M=<Pη​,Rη​>表示了状态变迁Pη≈P\mathcal{P}_\eta \approx\mathcal{P}Pη​≈P且Rη≈R\mathcal{R}_\eta \approx \mathcal{R}Rη​≈R St+1∼Pη(St+1∣St,At)S_{t+1} \sim \mathcal{P}_\eta(S_{t+1}|S_t,A_t)St+1​∼Pη​(St+1​∣St​,At​) Rt+1=Rη(Rt+1∣St,At)R_{t+1} = \mathcal{R}_\eta(R_{t+1}|S_t,A_t)Rt+1​=Rη​(Rt+1​∣St​,At​)
  • 典型地,假定状态变迁和奖励之间的条件性独立 P[St+1,Rt+1∣St,At]=P[St+1∣St,At]P[Rt+1∣St,At]\mathbb{P}[S_{t+1},R_{t+1}|S_t,A_t]=\mathbb{P}[S_{t+1}|S_t,A_t]\mathbb{P}[R_{t+1}|S_t,A_t]P[St+1​,Rt+1​∣St​,At​]=P[St+1​∣St​,At​]P[Rt+1​∣St​,At​]

Model Learning

  • 目标:从经验S1,A1,R2,...,ST{S_1,A_1,R_2,...,S_\Tau}S1​,A1​,R2​,...,ST​中估计模型Mη\mathcal{M}_\etaMη​
  • 这是一个监督学习问题 S1,A1→R2,S2S_1,A_1\rightarrow R_2,S_2S1​,A1​→R2​,S2​ S2,A2→R3,S3S_2,A_2\rightarrow R_3,S_3S2​,A2​→R3​,S3​ ......... ST−1,AT−1→RT,STS_{\Tau-1},A_{\Tau-1}\rightarrow R_{\Tau},S_{\Tau}ST−1​,AT−1​→RT​,ST​
  • 学习s,a→rs,a\rightarrow rs,a→r是一个回归问题
  • 学习s,a→s′s,a\rightarrow s's,a→s′是一个(概率)密度评估问题
  • 选择损失函数,e.g. 均方误差,KL散度,…
  • 找到使得实验误差最小化的参数集η\etaη

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督

论文链接:https://arxiv.org/pdf/1911.05722.pdf

9830
来自专栏小詹同学

浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问...

5910
来自专栏相约机器人

对标 GLUE、ImageNet,谷歌推出视觉任务适应性基准 VTAB

众所周知,图像分类领域有 ImageNet 数据集,自然语言处理领域有 GLUE 基准,这些基准在对应领域的进展中发挥了重要作用。终于,谷歌推出了视觉任务适应性...

6430
来自专栏深度学习自然语言处理

【干货】22道机器学习常见面试题目

有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性...

7310
来自专栏小小挖掘机

模型的独立学习方式

针对一个给定的任务,通常采取的步骤是:准确一定非规模的数据集,这些数据要和真实数据集的分布一致;然后设定一个优化目标和方法;然后在训练集上训练模型。

7020
来自专栏小小挖掘机

【干货】22道机器学习常见面试题目

有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性...

7010
来自专栏深度学习自然语言处理

【长文详解】T5: Text-to-Text Transfer Transformer 阅读笔记

谷歌用一篇诚意满满(财大气粗)的基于实验的综述,试图帮助研究者们「拨开云雾见光明」。论文十分适合该领域的初学者通读,写的十分友好,不过由于涉及到的模型/技术很多...

22810
来自专栏数据派THU

干货 | 吴恩达亲自为这份深度学习专项课程精炼图笔记点了赞!(附下载)

[ 导读 ]吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适...

9240
来自专栏AI科技评论

「LSTM 之父」亲笔万字长文,只为向世人证明:深度学习不是在母语为英语的地方被发明的

毫无疑问,深度学习是影响当今世界科技发展的最重要的技术之一。2018 年,深度学习「三巨头」因其在这个领域的卓越贡献荣获图灵奖。在人们感慨人工智能迎来春天的同时...

3.2K00
来自专栏Datawhale专栏

干货!吴恩达亲自为这份深度学习专项课程精炼图笔记点了赞!

吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解...

11230

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励