列夫托尔斯昊

LV0
发表了文章

强化学习仿真环境搭建入门Getting Started with OpenAI gym

gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设,并且与任何数字计算库(例如TensorFlow或Theano)兼容。

列夫托尔斯昊
发表了文章

RL实践3——为Agent添加Policy、记忆功能

在实践2中,介绍了gym环境的定义和使用方法。 在实践1中,介绍了 动态规划DP 求解 价值函数 并没有形成一个策略Policy\(\pi\)来指导agen...

列夫托尔斯昊
发表了文章

强化学习笔记10:经典游戏示例 classic games

对于石头剪刀布来说,最优策略,显然和对手agent策略相关,我们期望找到一种一致的策略策略,对所有对手都有效 什么是第i个玩家的最优策略\(\pi\)

列夫托尔斯昊
发表了文章

强化学习笔记11:工程师看强化学习

缺点:带来维度灾难 对于连续空间,构建Value = w1 * state + w2 * action 手段:函数近似器

列夫托尔斯昊
发表了文章

RL实践3——为Agent添加Policy

在实践2中,介绍了gym环境的定义和使用方法。 在实践1中,介绍了 动态规划DP 求解 价值函数 并没有形成一个策略Policy\(\pi\)来指导agen...

列夫托尔斯昊
发表了文章

RL实践1——动态规划值迭代

动态规划的使用条件时MDP已知,在简单游戏中,这个条件时显然成立的 使用Value iteration的方法求解每个状态的价值函数,迭代收敛之后,对应最优策略...

列夫托尔斯昊
发表了文章

RL实践2——RL环境gym搭建

首先先来回顾一下强化学习问题中,环境Env 和 代理Agent 分别承担的角色和作用。

列夫托尔斯昊
发表了文章

hexo 进阶设置指南(持续更新)

对复杂公式的支持不够好,简单公式可以显示,复杂编译错误,验证表明,问题不是mathjax.js导致,是默认hexo引擎编译导致html文本转义错误。

列夫托尔斯昊
发表了文章

强化学习笔记9:探索和利用 exploration and exploitation

最佳的策略是用长期的眼光来看,放弃短期高回报 获取足够策略是让策略变成全局最优的必要条件

列夫托尔斯昊
发表了文章

强化学习笔记8:整合学习和规划

第7章节,讲了PG,从episode经验学习到 策略 policy 之前的章节,讲了从episode 经验学习到 价值函数

列夫托尔斯昊
发表了文章

强化学习笔记7:策略梯度 Policy Gradient

之前的策略优化,用的基本都是\(\epsilon\)-greedy的policy improve方法,这里介绍policy gradient法,不基于v、q函数

列夫托尔斯昊
发表了文章

强化学习笔记5:无模型控制 Model-free control

贪婪策略梯度法如果用V(s),需要MDP已知 对于已知MDP,可以通过策略迭代的方法,DP到最优策略

列夫托尔斯昊
发表了文章

强化学习笔记2:Markov decision process(MDP)

我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。

列夫托尔斯昊
发表了文章

强化学习笔记3:动态规划 planning by dynamic programming(DP)

三种值迭代方法: 常规的值迭代,要遍历过所有s之后,才进行一次迭代,因此存在old、new两个v(s)

列夫托尔斯昊
发表了文章

强化学习笔记1:基本概念

强化学习不同于 监督、非监督学习(与静态数据交互),与环境产生交互,产生最优结果的动作序列。

列夫托尔斯昊
发表了文章

Keras & Tensorflow 笔记

Keras是一个高层神经网络API,Keras由纯Python编写而成并基于Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生,能...

列夫托尔斯昊
发表了文章

机器学习-Coursera笔记

h(z)代表着一个边界,将值分为>0和<0 由于sigmoid函数的特性,程序最终会优化到z取值远离零点

列夫托尔斯昊
发表了文章

强化学习-5:Model-free control

贪婪策略梯度法如果用V(s),需要MDP已知 用Q(s,a),不需要已知MDP

列夫托尔斯昊
发表了文章

强化学习-4:无模型预测 model-free prediction

对于Env来说,属于MP,但是不是参数已知的MDP 比如元组中a、s、P的关系不确定 or 未知 Prediction -> Control Evalua...

列夫托尔斯昊
发表了文章

强化学习-3:动态规划 planning by dynamic programming(DP)

\[ v_{\pi}(s)=\max _{a \in \mathcal{A}} q_{\pi}(s, a) \] 主动改变策略,策略改变之后进行评估 根...

列夫托尔斯昊

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券