腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习算法原理与实践

专栏作者

129

文章

145904

阅读量

76

订阅数

XGBoost类库使用小结

面向对象编程 api python 决策树

　　　　在XGBoost算法原理小结中，我们讨论了XGBoost的算法原理，这一片我们讨论如何使用XGBoost的Python类库，以及一些重要参数的意义和调参思路。

刘建平Pinard

2019-07-03

1.5K2

机器学习中的矩阵向量求导(五) 矩阵对矩阵的求导

机器学习神经网络深度学习人工智能

　　　　在矩阵向量求导前4篇文章中，我们主要讨论了标量对向量矩阵的求导，以及向量对向量的求导。本文我们就讨论下之前没有涉及到的矩阵对矩阵的求导，还有矩阵对向量，向量对矩阵求导这几种形式的求导方法。

刘建平Pinard

2019-05-31

2.3K0

机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法

　　　　在机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法中，我们讨论了定义法求解矩阵向量求导的方法，但是这个方法对于比较复杂的求导式子，中间运算会很复杂，同时排列求导出的结果也很麻烦。因此我们需要其他的一些求导方法。本文我们讨论使用微分法来求解标量对向量的求导，以及标量对矩阵的求导。

刘建平Pinard

2019-05-13

1.5K0

机器学习中的矩阵向量求导(一) 求导定义与求导布局

layout partial 布局

　　　　在之前写的上百篇机器学习博客中，不时会使用矩阵向量求导的方法来简化公式推演，但是并没有系统性的进行过讲解，因此让很多朋友迷惑矩阵向量求导的具体过程为什么会是这样的。这里准备用三篇来讨论下机器学习中的矩阵向量求导，今天是第一篇。

刘建平Pinard

2019-05-07

1.1K0

机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法

com partial sum 布局

　　　　在机器学习中的矩阵向量求导(一) 求导定义与求导布局中，我们讨论了向量矩阵求导的9种定义与求导布局的概念。今天我们就讨论下其中的标量对向量求导，标量对矩阵求导, 以及向量对向量求导这三种场景的基本求解思路。

刘建平Pinard

2019-04-27

9430

强化学习(十九) AlphaGo Zero强化学习原理

神经网络强化学习

　　　　在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中，我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上，讨论下DeepMind的AlphaGo Zero强化学习原理。

刘建平Pinard

2019-04-01

1.2K0

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

强化学习编程算法

　　　　在强化学习(十七) 基于模型的强化学习与Dyna算法框架中，我们讨论基于模型的强化学习方法的基本思路，以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法：基于模拟的搜索(Simulation Based Search)。

刘建平Pinard

2019-03-15

1.1K0

强化学习(十五) A3C

编程算法强化学习神经网络

　　　　在强化学习(十四) Actor-Critic中，我们讨论了Actor-Critic的算法流程，但是由于普通的Actor-Critic算法难以收敛，需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C的算法原理和算法流程。

刘建平Pinard

2019-03-05

1.1K0

强化学习(十六) 深度确定性策略梯度(DDPG)

神经网络编程算法

　　　　在强化学习(十五) A3C中，我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题，今天我们不使用多线程，而是使用和DDQN类似的方法：即经验回放和双网络的方法来改进Actor-Critic难收敛的问题，这个算法就是是深度确定性策略梯度(Deep Deterministic Policy Gradient，以下简称DDPG)。

刘建平Pinard

2019-03-05

4.8K0

强化学习(十七) 基于模型的强化学习与Dyna算法框架

强化学习编程算法监督学习

　　　　在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。

刘建平Pinard

2019-03-04

1.1K0

强化学习(十四) Actor-Critic

编程算法强化学习神经网络

　　　　在强化学习(十三) 策略梯度(Policy Gradient)中，我们讲到了基于策略(Policy Based)的强化学习方法的基本思路，并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列，同时单独对策略函数进行迭代更新，不太容易收敛。

刘建平Pinard

2019-02-22

8050

强化学习(十三) 策略梯度(Policy Gradient)

　　　　在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如本篇讨论的策略梯度(Policy Gradient)，它是Policy Based强化学习方法，基于策略来学习。

刘建平Pinard

2018-12-27

1.1K0

强化学习(十二) Dueling DQN

　　　　在强化学习(十一) Prioritized Replay DQN中，我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法，本文讨论另一种优化方法，Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling DQN的论文<Dueling Network Architectures for Deep Reinforcement Learning>(ICML 2016)。

刘建平Pinard

2018-12-10

1.2K0

强化学习(十一) Prioritized Replay DQN

　　　　在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。

刘建平Pinard

2018-10-22

9510

强化学习（十）Double DQN (DDQN)

　　　　在强化学习（九）Deep Q-Learning进阶之Nature DQN中，我们讨论了Nature DQN的算法流程，它通过使用两个相同的神经网络，以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点，文本就关注于Nature DQN的一个改进版本: Double DQN算法（以下简称DDQN）。

刘建平Pinard

2018-10-15

2.8K0

强化学习（九）Deep Q-Learning进阶之Nature DQN

强化学习 nat 编程算法游戏

　　　　在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learning(以下简称DQN)的改进版，今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。

刘建平Pinard

2018-10-11

1.1K0

强化学习（八）价值函数的近似表示与Deep Q-Learning

　　　　在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。

刘建平Pinard

2018-10-11

1.1K0

强化学习（六）时序差分在线控制算法SARSA

　　　　在强化学习（五）用时序差分法（TD）求解中，我们讨论了用时序差分来求解强化学习预测问题的方法，但是对控制算法的求解过程没有深入，本文我们就对时序差分的在线控制算法SARSA做详细的讨论。

刘建平Pinard

2018-10-10

6900

强化学习（七）时序差分离线控制算法Q-Learning

　　　　在强化学习（六）时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA，而另一类时序差分的离线控制算法还没有讨论，因此本文我们关注于时序差分离线控制算法，主要是经典的Q-Learning算法。

刘建平Pinard

2018-10-10

1K0

强化学习（五）用时序差分法（TD）求解

　　　　在强化学习（四）用蒙特卡罗法（MC）求解中，我们讲到了使用蒙特卡罗法来求解强化学习问题的方法，虽然蒙特卡罗法很灵活，不需要环境的状态转化概率模型，但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列，那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法：时序差分(Temporal-Difference, TD)。

刘建平Pinard

2018-08-30

1K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态