机器学习算法原理与实践

115 篇文章
29 人订阅

全部文章

刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(十)Double DQN (DDQN)

    在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解...

912
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(九)Deep Q-Learning进阶之Nature DQN

    在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个...

381
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(八)价值函数的近似表示与Deep Q-Learning

    在强化学习系列的前七篇里,我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q...

431
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(六)时序差分在线控制算法SARSA

    在强化学习(五)用时序差分法(TD)求解中,我们讨论了用时序差分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序差分的在...

542
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(七)时序差分离线控制算法Q-Learning

    在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于...

945
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(五)用时序差分法(TD)求解

    在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它...

782
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(四)用蒙特卡罗法(MC)求解

    在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的...

742
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(三)用动态规划(DP)求解

    在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动...

633
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(二)马尔科夫决策过程(MDP)

    在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简...

1293
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

强化学习(一)模型基础

    从今天开始整理强化学习领域的知识,主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇,希望写完后自己的强化学...

762
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

Lasso回归算法: 坐标轴下降法与最小角回归法小结

    前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结。里面对线程回归的正则化也做了一个初步的介绍。提到了线程回归的L2正则化-Ridge回归,...

712
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

scikit-learn 和pandas 基于windows单机机器学习环境的搭建

    很多朋友想学习机器学习,却苦于环境的搭建,这里给出windows上scikit-learn研究开发环境的搭建步骤。

592
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

机器学习研究与开发平台的选择

    目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机...

714
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

线性回归原理小结

    线性回归可以说是机器学习中最基本的问题类型了,这里就对线性回归的原理和算法做一个小结。

704
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

精确率与召回率,RoC曲线与PR曲线

    在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念...

682
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

交叉验证(Cross Validation)原理小结

    交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用...

552
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

最小二乘法小结

    最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影,这里就对我对最小二乘法的认知做一个小结。

604
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

梯度下降(Gradient Descent)小结

    在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就...

371
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

scikit-learn决策树算法类库使用小结

    之前对决策树的算法原理做了总结,包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法,主要是讲解使用scikit-lear...

943
刘建平Pinard

唯品会 · 资深开发工程师 (已认证)

决策树算法原理(下)

    在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复...

491

扫码关注云+社区