机器学习从零开始系列连载(1)——基本概念

作者:张 磊

编辑:赵一帆

本周内容:

1. 一些基本概念

1.1 生成式模型与判别式模型

1.2 参数学习与非参学习

1.2.1 参数学习

1.2.2 非参学习

1.3 监督学习、非监督学习与强化学习

1.3.1 监督学习

1.3.2 非监督学习

1.3.3 强化学习

2. 建模方法回顾

2.0 偏差与方差

2.1 线性回归-Linear Regression

2.1.1 模型原理

2.1.2 损失函数

2.2 支持向量机-Support Vector Machine

2.2.1 模型原理

2.2.2 损失函数

2.2.3 核方法

2.3 逻辑回归-Logistic Regression

2.3.1 模型原理

2.3.2 损失函数

2.4 Bagging and Boosting框架

2.4.1 Bagging框架

2.4.2 Boosting框架

2.5 Additive Tree 模型

2.5.1 Random Forests

2.5.2 AdaBoost with trees

2.5.3 Gradient Boosting Decision Tree

2.5.4 简单的例子

2.6 人工神经网络-Neural Network

2.6.1 神经元

2.6.2 神经网络的常用结构

2.6.3 一个简单的神经网络例子

01

生成式模型与判别式模型

从概率分布的角度看待模型。给个例子感觉一下: 如果我想知道一个人A说的是哪个国家的语言,我应该怎么办呢?

生成式模型

我把每个国家的语言都学一遍,这样我就能很容易知道A说的是哪国语言,并且C、D说的是哪国的我也可以知道,进一步我还能自己讲不同国家语言。

判别式模型

我只需要学习语言之间的差别是什么,学到了这个界限自然就能区分不同语言,我能说出不同语言的区别,但我哦可能不会讲。

如果我有输入数据x,并且想通过标注y去区分不同数据属于哪一类,生成式模型是在学习样本和标注的联合概率分布p(x, y)而判别式模型是在学习条件概率p(x|y)。

生成式模型p(x, y)可以通过贝叶斯公式转化为p(x|y)=p(x, y)/p(x),并用于分类,而联合概率p(x, y)分布也可用于其他目的,比如用来生成样本对(x, y)。

判别式模型的主要任务是找到一个或一系列超平面,利用它(们)划分给定样本x到给定分类y,这也能直白的体现出“判别”模型这个名称。

最后给一个很简单的例子说明一下:

假如我有以下独立同分布的若干样本(x, y),其中x为特征,y∈{0, 1}为标注,(x, y)∈{(2, -1), (2, -1), (3, -1), (3, 1), (3, 1)}

常见生成式模型

Naive Bayes

Gaussians

Mixtures of Gaussians

Mixtures of Experts

Mixtures of Multinomials

HMM

Markov random fields

Sigmoidal belief networks

Bayesian networks

常见判别式模型

Linear regression

Logistic regression

SVM

Perceptron

Traditional Neural networks

Nearest neighbor

Conditional random fields

02

参数学习与非参学习

参数学习

参数学习的特点是:

1、选择某种形式的函数并通过机器学习用一系列固定个数的参数尽可能表征这些数据的某种模式;

2、不管数据量有多大,函数参数的个数是固定的,即参数个数不随着样本量的增大而增加,从关系上说它们相互独立;

3、往往对数据有较强的假设,如分布的假设,空间的假设等。

4、常用参数学习的模型有:

Logistic Regression

Linear Regression

Polynomial regression

Linear Discriminant Analysis

Perceptron

Naive Bayes

Simple Neural Networks

使用线性核的SVM

Mixture models

K-means

Hidden Markov models

Factor analysis / pPCA / PMF

非参学习

注意不要被名字误导,非参不等于无参

1、数据决定了函数形式,函数参数个数不固定;

2、随着数据量的增加,参数个数一般也会随之增长;

3、对数据本身做较少的先验假设。

4、一些常用的非参学习模型:

k-Nearest Neighbors

Decision Trees like CART and C4.5

使用非线性核的SVM

Gradient Boosted Decision Trees

Gaussian processes for regression

Dirichlet process mixtures

infinite HMMs

infinite latent factor models

03

监督学习、非监督学习与强化学习

监督学习

对于每一个样本都会提供一个明确的学习目标(标注),有自变量也有因变量,学习机接收样本进行学习并通过对该样本预测后的结果和事先给定的目标比较后修正学习过程,这里的每一个样本都是标注好的,所以好处是歧义较低,坏处是万一有一定量样本标错了或者没标会对最终应用效果影响较大。通常监督学习过程如下:

非监督学习

对于每个样本不提供明确的学习目标(标注),有自变量但无因变量,学习机接收样本后会按事先指定的必要参数,依据某种相似度衡量方式自动学习样本内部的分布模式,好处是没有过多先验假设,能够体现数据内在模式并应用,坏处是有“盲目”性,并会混在噪声数据。比如:常用LDA做主题聚类,但如果使用场景不是降维而是想得到可输出的主题词,基本上没有人肉的干预无法直接使用(虽然整体上看感觉可能不错)。

强化学习

我认为强化学习是最接近人类学习过程的,很多情况下我们无法直接表达什么是正确的什么是错误的(比如:我正在爬山,迈了一大步,又迈了一小步,那么没法儿说我迈了大步正确还是错误),但是可以通过惩罚不好的结果或者奖励好的结果来强化学习的效果(我迈了个大步,导致没有站稳,那么对迈大步做惩罚,然后接下来我会迈小一点)。

所以强化学习是一个序列的决策过程,学习机的学习目标是通过在给定状态下选择某种动作,寻找合适动作的策略序列使得它可以获得某种最优结果的过程。

强化学习的几个要素,体现其序列、交互性:

环境(environment):

强化学习所处的上下文;

学习器(agent):

与环境的交互并学习的对象,

具有主动性;

动作(action):

处于环境下的可行动作集合;

反馈(feedback):

对动作的回报或惩罚;

策略(policy):

学习到的策略链。

经典的训练狗的实验就是一种强化学习的过程:

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2017-11-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

神经网络浅讲:从神经元到深度学习

作者 | 计算机的潜意识 整理 | AI科技大本营(rgznai100) 神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神...

3797
来自专栏AI研习社

【算法】机器学习算法实践 K均值聚类的实用技巧

本文作者为美国数据分析专家 Bilal Mahmood,他是用户数据分析平台 Bolt 的创始人之一。在本文中,他详细介绍了一种称为 K-Means Clust...

3006
来自专栏CSDN技术头条

大数据之机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学...

2266
来自专栏奇点大数据

机器学习必备的数学基础有哪些?

对于机器学习给出了这样一个定义,机器学习是由三个部分组成,分别是表示、评价,还有优化。这样的三个步骤,实际上也就对应着在机器学习当中所需要的数学。

732
来自专栏达观数据

课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例

新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的...

5706
来自专栏机器学习算法与Python学习

Deep Learning(1) -- 概述、分布式表示与思想

绪论 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的...

5117
来自专栏机器之心

学界 | 同济大学综述论文:基于深度生成模型的药物研发

论文:Advances and challenges in deep generative models for de novo molecule genera...

1384
来自专栏PPV课数据科学社区

【干货长文】神经网络浅讲:从神经元到深度学习

  神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解...

2898
来自专栏人工智能LeadAI

TensorFlow从0到1 | 第十四章:交叉熵损失函数——防止学习缓慢

通过上一篇 13 驯兽师:神经网络调教综述,对神经网络的调教有了一个整体印象,本篇从学习缓慢这一常见问题入手,根据Michael Nielsen的《Neural...

4107
来自专栏数据科学与人工智能

【机器学习】14种机器学习常见算法分类汇总!

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里总结一下常见的机器学习算法,以供您在工作和学习中参考。 机...

5328

扫码关注云+社区