刘建平Pinard

文章/答案/技术大牛

发布

LV1

关注了用户 2019-11-052019-11-05 11:55:07

腾讯云自媒体分享计划
腾讯｜产品运营 (已认证)

申请条件：至少有 20 篇或以上符合投稿要求可迁入腾讯云专栏的原创技术文章。

3 文章0 回答6.4K 关注者

订阅了专栏 2019-11-052019-11-05 11:55:07

腾讯云自媒体分享计划

3 文章6.3K 订阅数

发表了文章 2019-07-032019-07-03 11:29:57

XGBoost类库使用小结

　　　　在XGBoost算法原理小结中，我们讨论了XGBoost的算法原理，这一片我们讨论如何使用XGBoost的Python类库，以及一些重要参数的意义和调参...

刘建平Pinard 2019-07-032019-07-03 11:29:57

面向对象编程、api、python、决策树

发表了文章 2019-05-312019-05-31 11:04:59

机器学习中的矩阵向量求导(五) 矩阵对矩阵的求导

　　　　在矩阵向量求导前4篇文章中，我们主要讨论了标量对向量矩阵的求导，以及向量对向量的求导。本文我们就讨论下之前没有涉及到的矩阵对矩阵的求导，还有矩阵对向量，...

刘建平Pinard 2019-05-312019-05-31 11:04:59

机器学习、神经网络、深度学习、人工智能

发表了文章 2019-05-132019-05-13 19:21:53

机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法

　　　　在机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法中，我们讨论了定义法求解矩阵向量求导的方法，但是这个方法对于比较复杂的求导式子，中间运算会很复杂，...

刘建平Pinard 2019-05-132019-05-13 19:21:53

partial、sum

发表了文章 2019-05-072019-05-07 11:21:15

机器学习中的矩阵向量求导(一) 求导定义与求导布局

　　　　在之前写的上百篇机器学习博客中，不时会使用矩阵向量求导的方法来简化公式推演，但是并没有系统性的进行过讲解，因此让很多朋友迷惑矩阵向量求导的具体过程为什么...

刘建平Pinard 2019-05-072019-05-07 11:21:15

layout、partial、布局

发表了文章 2019-04-272019-04-27 21:07:34

机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法

　　　　在机器学习中的矩阵向量求导(一) 求导定义与求导布局中，我们讨论了向量矩阵求导的9种定义与求导布局的概念。今天我们就讨论下其中的标量对向量求导，标量对矩...

刘建平Pinard 2019-04-272019-04-27 21:07:34

com、partial、sum、布局

发表了文章 2019-04-012019-04-01 11:02:26

强化学习(十九) AlphaGo Zero强化学习原理

　　　　在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中，我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上，讨论下...

刘建平Pinard 2019-04-012019-04-01 11:02:26

神经网络、强化学习

发表了文章 2019-03-152019-03-15 16:29:28

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

　　　　在强化学习(十七) 基于模型的强化学习与Dyna算法框架中，我们讨论基于模型的强化学习方法的基本思路，以及集合基于模型与不基于模型的强化学习框架Dyna...

刘建平Pinard 2019-03-152019-03-15 16:29:27

强化学习、编程算法

发表了文章 2019-03-052019-03-05 15:17:57

强化学习(十五) A3C

　　　　在强化学习(十四) Actor-Critic中，我们讨论了Actor-Critic的算法流程，但是由于普通的Actor-Critic算法难以收敛，需要一...

刘建平Pinard 2019-03-052019-03-05 15:17:57

编程算法、强化学习、神经网络

发表了文章 2019-03-052019-03-05 10:59:02

强化学习(十六) 深度确定性策略梯度(DDPG)

　　　　在强化学习(十五) A3C中，我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题，今天我们不使用多线程，而是使用和DDQN类似的方法：...

刘建平Pinard 2019-03-052019-03-05 10:59:02

神经网络、编程算法

发表了文章 2019-03-042019-03-04 17:31:50

强化学习(十七) 基于模型的强化学习与Dyna算法框架

　　　　在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学...

刘建平Pinard 2019-03-042019-03-04 17:31:50

强化学习、编程算法、监督学习

发表了文章 2019-02-222019-02-22 14:56:51

强化学习(十四) Actor-Critic

　　　　在强化学习(十三) 策略梯度(Policy Gradient)中，我们讲到了基于策略(Policy Based)的强化学习方法的基本思路，并讨论了蒙特卡...

刘建平Pinard 2019-02-222019-02-22 14:56:51

编程算法、强化学习、神经网络

发表了文章 2018-12-272018-12-27 17:12:00

强化学习(十三) 策略梯度(Policy Gradient)

　　　　在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应...

刘建平Pinard 2018-12-272018-12-27 17:12:00

强化学习

发表了文章 2018-12-102018-12-10 10:06:33

强化学习(十二) Dueling DQN

　　　　在强化学习(十一) Prioritized Replay DQN中，我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法，本文讨论另一种优化方...

刘建平Pinard 2018-12-102018-12-10 10:06:33

编程算法

发表了文章 2018-10-222018-10-22 15:28:09

强化学习(十一) Prioritized Replay DQN

　　　　在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作...

刘建平Pinard 2018-10-222018-10-22 15:28:09

其他

发表了文章 2018-10-152018-10-15 17:09:07

强化学习（十）Double DQN (DDQN)

　　　　在强化学习（九）Deep Q-Learning进阶之Nature DQN中，我们讨论了Nature DQN的算法流程，它通过使用两个相同的神经网络，以解...

刘建平Pinard 2018-10-152018-10-15 17:09:07

其他

发表了文章 2018-10-112018-10-11 15:35:31

强化学习（九）Deep Q-Learning进阶之Nature DQN

　　　　在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个...

刘建平Pinard 2018-10-112018-10-11 15:35:31

强化学习、nat、编程算法、游戏

发表了文章 2018-10-112018-10-11 10:13:23

强化学习（八）价值函数的近似表示与Deep Q-Learning

　　　　在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q...

刘建平Pinard 2018-10-112018-10-11 10:13:23

其他

发表了文章 2018-10-102018-10-10 11:41:05

强化学习（六）时序差分在线控制算法SARSA

　　　　在强化学习（五）用时序差分法（TD）求解中，我们讨论了用时序差分来求解强化学习预测问题的方法，但是对控制算法的求解过程没有深入，本文我们就对时序差分的在...

刘建平Pinard 2018-10-102018-10-10 11:41:05

其他

12 3 4 5 6 7 下一页

个人简介

唯品会 | 资深开发工程师
http://www.cnblogs.com/pinard
机器学习神经网络 python 深度学习人工智能
WHU | CS
http://www.cnblogs.com/pinard
广东省 | 广州市
加入社区时间：2018-07-27

个人成就

获得 412 次赞同
文章被阅读 214.3K 次

关注了：1关注者：55