人工智能-机器学习总结

数山有路,学海无涯:机器学习概论


机器学习的基本原理与基础概念,其要点如下:

  • 机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科;
  • 根据输入输出类型的不同,机器学习可分为分类问题、回归问题、标注问题三类;
  • 过拟合是机器学习中不可避免的问题,可通过选择合适的模型降低其影响;
  • 监督学习是目前机器学习的主流任务,包括生成方法和判别方法两类。

image

简约而不简单:线性回归


线性回归的基本原理,其要点如下:

  • 线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数;
  • 最小二乘法可用于解决单变量线性回归问题,当误差函数服从正态分布时,它与最大似然估计等价;
  • 多元线性回归问题也可以用最小二乘法求解,但极易出现过拟合现象;
  • 岭回归和 LASSO 回归分别通过引入二范数惩罚项和一范数惩罚项抑制过拟合。

image

大道至简:朴素贝叶斯方法


朴素贝叶斯方法的基本原理,其要点如下:

  • 朴素贝叶斯方法利用后验概率选择最佳分类,后验概率可以通过贝叶斯定理求解;
  • 朴素贝叶斯方法假定所有属性相互独立,基于这一假设将类条件概率转化为属性条件概率的乘积;
  • 朴素贝叶斯方法可以使期望风险最小化;
  • 影响朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。

image

衍化至繁:逻辑回归


逻辑回归方法的基本原理,其要点如下:

  • 逻辑回归模型是对线性回归的改进,用于解决分类问题;
  • 逻辑回归输出的是实例属于每个类别的似然概率,似然概率最大的类别就是分类结果;
  • 在一定条件下,逻辑回归模型与朴素贝叶斯分类器是等价的;
  • 多分类问题时可以通过多次使用二分类逻辑回归或者使用 Softmax 回归解决。

image

步步为营,有章可循:决策树


决策树的基本原理,其要点如下:

  • 决策树是包含根节点、内部节点和叶节点的树结构,通过判定不同属性的特征来解决分类问题;
  • 决策树的学习过程包括特征选择、决策树生成、决策树剪枝三个步骤;
  • 决策树生成的基础是特征选择,特征选择的指标包括信息增益、信息增益比和基尼系数;
  • 决策树的剪枝策略包括预剪枝和后剪枝。

image

穷则变,变则通:支持向量机


支持向量机的基本原理,其要点如下:

  • 线性可分支持向量机通过硬间隔最大化求出划分超平面,解决线性分类问题;
  • 线性支持向量机通过软间隔最大化求出划分超平面,解决线性分类问题;
  • 非线性支持向量机利用核函数实现从低维原始空间到高维特征空间的转换,在高维空间上解决非线性分类问题;
  • 支持向量机的学习是个凸二次规划问题,可以用 SMO 算法快速求解。

image

三个臭皮匠,赛过诸葛亮:集成学习


集成学习的基本原理,其要点如下:

  • 集成学习使用多个个体学习器来获得比每个单独学习器更好的预测性能,包括序列化方法和并行化方法两类;
  • 多样性要求集成学习中的不同个体学习器之间具有足够的差异性;
  • 序列化方法采用 Boosting 机制,通过重复使用概率分布不同的训练数据实现集成,可以降低泛化误差中的偏差;
  • 并行化方法采用 Bagging 机制,通过在训练数据中多次自助抽取不同的采样子集实现集成,可以降低泛化误差中的方差。

image

物以类聚,人以群分:聚类分析


聚类分析的基本原理,其要点如下:

  • 聚类分析是一种无监督学习方法,通过学习没有分类标记的训练样本发现数据的内在性质和规律;
  • 数据之间的相似性通常用距离度量,类内差异应尽可能小,类间差异应尽可能大;
  • 根据形成聚类方式的不同,聚类算法可以分为层次聚类、原型聚类、分布聚类、密度聚类等几类;
  • 聚类分析的一个重要应用是对用户进行分组与归类。

image

好钢用在刀刃上:降维学习


主成分分析是一种主要的降维方法,另一种更加直观的降维方式则是直接对样本的属性做出筛选,这种降维方法就是“特征选择”,其要点如下:

  • 主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性,并通过选择重要的新属性实现降维;
  • 主成分分析的解满足最大方差和最小均方误差两类约束条件,因而具有最大可分性和最近重构性;
  • 特征选择则是选取原始特征中的一个子集用于学习任务,是另一种主要的降维技术;
  • 特征选择的关键问题是对特征子集的评价,主要的特征选择算法包括包裹法、过滤法和嵌入法。

image

拓展阅读参考书


本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小小挖掘机

整理一份机器学习资料!

本系列主要根据吴恩达老师的课程、李航老师的统计学习方法以及自己平时的学习资料整理!在本文章中,有些地方写的十分简略,不过详细的介绍我都附上了相应的博客链接,大家...

1072
来自专栏算法channel

2000字总结3种项目和面试中常用的集成学习算法

俗话说,“三个臭皮匠,顶个诸葛亮”,多个比较弱的人若能有一种方法集中利用他们的智慧,也可以达到比较好的效果,这就是集成学习的思想。

620
来自专栏大数据文摘

斯坦福CS231N深度学习与计算机视觉第七弹:神经网络数据预处理,正则化与损失函数

1422
来自专栏AI研习社

Word2Vec —— 深度学习的一小步,自然语言处理的一大步

Word2Vec 模型用来学习单词的向量表示,我们称为「词嵌入」。通常作为一种预处理步骤,在这之后词向量被送入判别模型(通常是 RNN)生成预测结果和执行各种有...

551
来自专栏ATYUN订阅号

27个问题测试你对逻辑回归的理解

逻辑回归可能是最常用的解决所有分类问题的算法。这里有27个问题专门测试你对逻辑回归的理解程度。 ? 1)判断对错:逻辑回归是一种有监督的机器学习算法吗? A)是...

4366
来自专栏灯塔大数据

塔荐 | 神经网络训练方法详解

前言 本文详细描述了动量法等当前十分流行的学习算法。此外,本系列将在后面介绍 Adam 和遗传算法等其它重要的神经网络训练方法。 I. 简介 本文是作者关于如何...

3198
来自专栏数据派THU

从零开始教你训练神经网络(附公式、学习资源)

来源:机器之心 作者:Vitaly Bushaev 本文长度为8900字,建议阅读15分钟 本文从神经网络简单的数学定义开始,沿着损失函数、激活函数和反向传播等...

18710
来自专栏互联网大杂烩

分类问题 数据挖掘之分类模型

判别分析是在已知研究对象分成若干类型并已经取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。

552
来自专栏Bingo的深度学习杂货店

一文理解机器学习中的各种熵

自信息公式 事件的不确定性越大(概率 pi 越小),自信息 I(pi) 越大。 比如买彩票,中彩票的自信息大,而不中彩票的自信息小。

682
来自专栏SIGAI学习与实践平台

理解 logistic 回归

logistic回归由Cox在1958年提出[1],它的名字虽然叫回归,但这是一种二分类算法,并且是一种线性模型。由于是线性模型,因此在预测时计算简单,在某些大...

811

扫码关注云+社区