腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习算法原理与实践

专栏作者

129

文章

146333

阅读量

76

订阅数

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

强化学习编程算法

　　　　在强化学习(十七) 基于模型的强化学习与Dyna算法框架中，我们讨论基于模型的强化学习方法的基本思路，以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法：基于模拟的搜索(Simulation Based Search)。

刘建平Pinard

2019-03-15

1.1K0

强化学习(十五) A3C

编程算法强化学习神经网络

　　　　在强化学习(十四) Actor-Critic中，我们讨论了Actor-Critic的算法流程，但是由于普通的Actor-Critic算法难以收敛，需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C的算法原理和算法流程。

刘建平Pinard

2019-03-05

1.1K0

强化学习(十六) 深度确定性策略梯度(DDPG)

神经网络编程算法

　　　　在强化学习(十五) A3C中，我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题，今天我们不使用多线程，而是使用和DDQN类似的方法：即经验回放和双网络的方法来改进Actor-Critic难收敛的问题，这个算法就是是深度确定性策略梯度(Deep Deterministic Policy Gradient，以下简称DDPG)。

刘建平Pinard

2019-03-05

4.8K0

强化学习(十七) 基于模型的强化学习与Dyna算法框架

强化学习编程算法监督学习

　　　　在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。

刘建平Pinard

2019-03-04

1.1K0

强化学习(十四) Actor-Critic

编程算法强化学习神经网络

　　　　在强化学习(十三) 策略梯度(Policy Gradient)中，我们讲到了基于策略(Policy Based)的强化学习方法的基本思路，并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列，同时单独对策略函数进行迭代更新，不太容易收敛。

刘建平Pinard

2019-02-22

8060

强化学习(十二) Dueling DQN

　　　　在强化学习(十一) Prioritized Replay DQN中，我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法，本文讨论另一种优化方法，Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling DQN的论文<Dueling Network Architectures for Deep Reinforcement Learning>(ICML 2016)。

刘建平Pinard

2018-12-10

1.2K0

强化学习（九）Deep Q-Learning进阶之Nature DQN

强化学习 nat 编程算法游戏

　　　　在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learning(以下简称DQN)的改进版，今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。

刘建平Pinard

2018-10-11

1.1K0

强化学习（四）用蒙特卡罗法（MC）求解

强化学习存储编程算法

　　　　在强化学习（三）用动态规划（DP）求解中，我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候，我们连环境的状态转化模型$P$都无法知道，这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢？本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。

刘建平Pinard

2018-08-30

7460

强化学习（三）用动态规划（DP）求解

强化学习编程算法机器学习

　　　　在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。

刘建平Pinard

2018-08-14

1K0

决策树算法原理(上)

决策树编程算法机器学习

　　　　决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法，也可以作为回归算法，同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结，上篇对ID3， C4.5的算法思想做了总结，下篇重点对CART算法做一个详细的介绍。选择CART做重点介绍的原因是scikit-learn使用了优化版的CART算法作为其决策树算法的实现。

刘建平Pinard

2018-08-14

6010

机器学习算法的随机数据生成

机器学习编程算法 numpy scikit-learn api

　　　　在学习机器学习算法的过程中，我们经常需要数据来验证算法，调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能，我们可以自己生成适合某一种模型的数据，用随机数据来做清洗，归一化，转换，然后选择模型与算法做拟合和预测。下面对scikit-learn和numpy生成数据样本的方法做一个总结。

刘建平Pinard

2018-08-14

1K0

日志和告警数据挖掘经验谈

数据挖掘编程算法

　　　　最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。

刘建平Pinard

2018-08-14

8030

最大熵模型原理小结

编程算法决策树

　　　最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法了，它和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术。而对熵的使用，让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型，对逻辑回归，支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。

刘建平Pinard

2018-08-14

5680

scikit-learn 朴素贝叶斯类库使用小结

scikit-learn 编程算法决策树

　　　　之前在朴素贝叶斯算法原理小结这篇文章中，对朴素贝叶斯分类算法的原理做了一个总结。这里我们就从实战的角度来看朴素贝叶斯类库。重点讲述scikit-learn 朴素贝叶斯类库的使用要点和参数选择。

刘建平Pinard

2018-08-14

8650

朴素贝叶斯算法原理小结

编程算法机器学习决策树

　　　　在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数$Y=f(X)$,要么是条件分布$P(Y|X)$。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出Y和特征X的联合分布$P(X,Y)$,然后用$P(Y|X) = P(X,Y)/P(X)$得出。

刘建平Pinard

2018-08-14

1950

用scikit-learn学习K-Means聚类

scikit-learn 编程算法监督学习

　　　　在K-Means聚类算法原理中，我们对K-Means的原理做了总结，本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。

刘建平Pinard

2018-08-14

5920

协同过滤推荐算法总结

编程算法机器学习 NLP 服务

　　　　推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。

刘建平Pinard

2018-08-14

1.6K0

用Spark学习FP Tree算法和PrefixSpan算法

spark 编程算法 scikit-learn python java

　　　　在FP Tree算法原理总结和PrefixSpan算法原理总结中，我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结，这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库，而Spark MLlib有，本文的使用以Spark MLlib作为使用环境。

刘建平Pinard

2018-08-14

1.7K0

PrefixSpan算法原理总结

编程算法数据处理数据库

　　　　前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法，但是它是挖掘频繁序列模式的，因此要解决的问题目标稍有不同。

刘建平Pinard

2018-08-14

8550

FP Tree算法原理总结

编程算法数据结构存储

　　　　在Apriori算法原理总结中，我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法，Apriori算法需要多次扫描数据，I/O是很大的瓶颈。为了解决这个问题，FP Tree算法（也称FP Growth算法）采用了一些技巧，无论多少数据，只需要扫描两次数据集，因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。

刘建平Pinard

2018-08-14

2K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态