AlgorithmDog的专栏

46 篇文章
32 人订阅

全部文章

AlgorithmDog

一个特殊场景的 LR 预测优化 Trick

我们的业务碰到了一个很特殊的场景:用户数量巨大,上亿;物品数目比较少,不超过 500 个。针对这个特点,我们设计了一个小程序 Trick。这个程序 Trick ...

2995
AlgorithmDog

动手写一个 DQN 的棋牌 AI

深度强化学习是学术界研制游戏 AI 的主流算法。这篇文章我们将用深度强化学习早期代表算法 DQN 算法探索棋牌 AI。

1K9
AlgorithmDog

遗传算法系列之一:遗传算法简介

最近博主在写毕业论文,没时间看资料,只能炒一些冷饭了——拿本科接触的东西写博客了。因此开始写遗传算法系列,这篇博客作为开端介绍遗传算法的基本知识。遗...

2088
AlgorithmDog

强化学习系列之五:价值函数近似

目前,我们已经介绍了一些强化学习的算法,但是我们无法在实际问题中运用这些算法。 为什么呢?因为算法估算价值函数 (v(s)) 或者 (q(...

3909
AlgorithmDog

Metropolis-Hastings 和 Gibbs sampling

在科学研究中,如何生成服从某个概率分布的样本是一个重要的问题。 如果样本维度很低,只有一两维,我们可以用反切法、拒绝采样和重要性采样等方法。 但是对...

2129
AlgorithmDog

游戏智能系列之二:再次进行准备

上次准备用 AIsteroids 和 0.A.D 平台去学习游戏中的人工智能,现在换成 Clashjs。 AIsteroids 和 0.A.D 作模...

1819
AlgorithmDog

朴素贝叶斯分类器本质上是线性分类器

朴素贝叶斯分类器是一种应用贝叶斯定理的分类器。线性分类器是通过特征的线性组合来做出分类决定的分类器。本质上,朴素贝叶斯分类器是一种线性分类器。 朴...

2475
AlgorithmDog

PCA模型加先验

大清牛人曰:ML派坐落美利坚合众山中,百年来武学奇才辈出,隐然成江湖第一大名门正派,门内有三套入门武功,曰:图模型加圈,神经网加层,优化目标加正则。...

17810
AlgorithmDog

遗传算法系列之五:多目标遗传算法和遗传编程

在遗传算法深入研究的阶段,人们提出将各种将遗传算法应用到更广泛领域,从而产生了一些有趣的后续工作。这些后续工作中,多目标遗传算法和遗传编程由于它们重要...

3306
AlgorithmDog

EM算法原理和应用

EM算法是带隐变量概率模型的推断算法。今天我们介绍 EM 算法的原理和应用。我们先介绍推导出 EM 算法的一般方法,再介绍另一种 EM 算法推导方法...

22510
AlgorithmDog

遗传算法系列之三:数学摆摆手,“很惭愧,只做了一点微小的工作”

遗传算法是一个模拟生物进化的算法,并不是从数学推导出来的。但还是有人探究遗传算法的数学基础呢?在介绍遗传算法数学基础之前,先定义一些符号: I...

2118
AlgorithmDog

强化学习系列之四:模型无关的策略学习

模型无关的策略学习,是在不知道马尔科夫决策过程的情况下学习到最优策略。模型无关的策略学习主要有三种算法: MC Control, SARSA 和 Q...

3085
AlgorithmDog

遗传算法系列之二:“欺骗”深度学习的遗传算法

这篇博客主要介绍不同问题的遗传算法。 遗传算法是通用的全局优化算法,因此有很多的应用。有很多应用我是看不懂的,比如机器人步态优化。机器人...

2839
AlgorithmDog

强化学习系列之三:模型无关的策略评价

上一章我们介绍了模型相关 (Model-based) 的强化学习。从现在开始我们要介绍模型无关 (Model-free) 的强化学习。 由...

2269
AlgorithmDog

遗传算法系列之四:遗传算法的变种

这篇博客介绍遗传算法变种。我们认为,遗传算法的变种可以分为两个类别:有效性变种和应用性变种。有效性变种用于提高遗传算法的性能。应用性变种是遗传算法适用...

26910
AlgorithmDog

AlphaGo 是如何把 CNN 接到搜索的?

现在最热的话题莫过于李世石和 AlphaGo 的围棋大战。虽然我也想蹭下这个热点,但我不懂深度学习,不懂强化学习,更不懂围棋的。因此我只能认真看 A...

2436
AlgorithmDog

强化学习系列之一:马尔科夫决策过程

文章目录 [隐藏] 1. 马尔科夫决策过程 2. 策略和价值 3. 最优策略存在性和贝尔曼等式 强化学习系列系列文章 机器学习一共有三个分支,有监督...

2375
AlgorithmDog

强化学习系列之六:策略梯度

文章目录 [隐藏] 1. 策略参数化 2. 策略梯度算法 2.1 MC Policy Gradient 2.2 Actor-Critic 3. 为什么要有策略梯...

3305
AlgorithmDog

强化学习系列之二:模型相关的强化学习

文章目录 [隐藏] 1. 策略迭代 1.1 策略评估 1.2 策略改进 2. 价值迭代 3. 总结性结尾(好魔性的标题) 强化学习系列系列文章 上一...

2028
AlgorithmDog

深度学习框架大战正在进行,谁将夺取“深度学习工业标准”的荣耀?

深度学习框架大战正在进行,谁将夺取“深度学习工业标准”的荣耀,我们拭目以待。

2217

扫码关注云+社区