人工智能-机器学习总结

数山有路,学海无涯:机器学习概论


机器学习的基本原理与基础概念,其要点如下:

  • 机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科;
  • 根据输入输出类型的不同,机器学习可分为分类问题、回归问题、标注问题三类;
  • 过拟合是机器学习中不可避免的问题,可通过选择合适的模型降低其影响;
  • 监督学习是目前机器学习的主流任务,包括生成方法和判别方法两类。

image

简约而不简单:线性回归


线性回归的基本原理,其要点如下:

  • 线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数;
  • 最小二乘法可用于解决单变量线性回归问题,当误差函数服从正态分布时,它与最大似然估计等价;
  • 多元线性回归问题也可以用最小二乘法求解,但极易出现过拟合现象;
  • 岭回归和 LASSO 回归分别通过引入二范数惩罚项和一范数惩罚项抑制过拟合。

image

大道至简:朴素贝叶斯方法


朴素贝叶斯方法的基本原理,其要点如下:

  • 朴素贝叶斯方法利用后验概率选择最佳分类,后验概率可以通过贝叶斯定理求解;
  • 朴素贝叶斯方法假定所有属性相互独立,基于这一假设将类条件概率转化为属性条件概率的乘积;
  • 朴素贝叶斯方法可以使期望风险最小化;
  • 影响朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。

image

衍化至繁:逻辑回归


逻辑回归方法的基本原理,其要点如下:

  • 逻辑回归模型是对线性回归的改进,用于解决分类问题;
  • 逻辑回归输出的是实例属于每个类别的似然概率,似然概率最大的类别就是分类结果;
  • 在一定条件下,逻辑回归模型与朴素贝叶斯分类器是等价的;
  • 多分类问题时可以通过多次使用二分类逻辑回归或者使用 Softmax 回归解决。

image

步步为营,有章可循:决策树


决策树的基本原理,其要点如下:

  • 决策树是包含根节点、内部节点和叶节点的树结构,通过判定不同属性的特征来解决分类问题;
  • 决策树的学习过程包括特征选择、决策树生成、决策树剪枝三个步骤;
  • 决策树生成的基础是特征选择,特征选择的指标包括信息增益、信息增益比和基尼系数;
  • 决策树的剪枝策略包括预剪枝和后剪枝。

image

穷则变,变则通:支持向量机


支持向量机的基本原理,其要点如下:

  • 线性可分支持向量机通过硬间隔最大化求出划分超平面,解决线性分类问题;
  • 线性支持向量机通过软间隔最大化求出划分超平面,解决线性分类问题;
  • 非线性支持向量机利用核函数实现从低维原始空间到高维特征空间的转换,在高维空间上解决非线性分类问题;
  • 支持向量机的学习是个凸二次规划问题,可以用 SMO 算法快速求解。

image

三个臭皮匠,赛过诸葛亮:集成学习


集成学习的基本原理,其要点如下:

  • 集成学习使用多个个体学习器来获得比每个单独学习器更好的预测性能,包括序列化方法和并行化方法两类;
  • 多样性要求集成学习中的不同个体学习器之间具有足够的差异性;
  • 序列化方法采用 Boosting 机制,通过重复使用概率分布不同的训练数据实现集成,可以降低泛化误差中的偏差;
  • 并行化方法采用 Bagging 机制,通过在训练数据中多次自助抽取不同的采样子集实现集成,可以降低泛化误差中的方差。

image

物以类聚,人以群分:聚类分析


聚类分析的基本原理,其要点如下:

  • 聚类分析是一种无监督学习方法,通过学习没有分类标记的训练样本发现数据的内在性质和规律;
  • 数据之间的相似性通常用距离度量,类内差异应尽可能小,类间差异应尽可能大;
  • 根据形成聚类方式的不同,聚类算法可以分为层次聚类、原型聚类、分布聚类、密度聚类等几类;
  • 聚类分析的一个重要应用是对用户进行分组与归类。

image

好钢用在刀刃上:降维学习


主成分分析是一种主要的降维方法,另一种更加直观的降维方式则是直接对样本的属性做出筛选,这种降维方法就是“特征选择”,其要点如下:

  • 主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性,并通过选择重要的新属性实现降维;
  • 主成分分析的解满足最大方差和最小均方误差两类约束条件,因而具有最大可分性和最近重构性;
  • 特征选择则是选取原始特征中的一个子集用于学习任务,是另一种主要的降维技术;
  • 特征选择的关键问题是对特征子集的评价,主要的特征选择算法包括包裹法、过滤法和嵌入法。

image

拓展阅读参考书


本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

深度卷积神经网络演化历史及结构改进脉络-40页长文全面解读

从1989年LeCun提出第一个真正意义上的卷积神经网络到今天为止,它已经走过了29个年头。自2012年AlexNet网络出现之后,最近6年以来,卷积神经网络得...

1201
来自专栏新智元

【斯坦福CS229】一文横扫机器学习要点:监督学习、无监督学习、深度学习

给定一组与输出{y(1),...,y(m)}相关联的数据点{x(1),...,x(m)},我们希望构建一个能够根据x值预测y值的分类器。

611
来自专栏PaddlePaddle

激活函数

深度学习基础理论-CNN篇 激活函数 ? 激活函数(activation function)层又称非线性映射层,顾名思义,激活函数的引入为的是增加整个网络的...

2899
来自专栏目标检测和深度学习

综述:深度学习时代的目标检测算法

来源:https://zhuanlan.zhihu.com/p/33277354 目前目标检测领域的深度学习方法主要分为两类:two stage的目标检测算法;...

4125
来自专栏小石不识月

机器学习中分类与回归的差异

在分类(Classification)问题与回归(Regression)问题之间,有着一个重要的区别。

2079
来自专栏小小挖掘机

整理一份机器学习资料!

本系列主要根据吴恩达老师的课程、李航老师的统计学习方法以及自己平时的学习资料整理!在本文章中,有些地方写的十分简略,不过详细的介绍我都附上了相应的博客链接,大家...

1432
来自专栏磐创AI技术团队的专栏

【斯坦福CS229】一文横扫机器学习要点:监督学习、无监督学习、深度学习

【磐创AI导读】:提及机器学习,很多人会推荐斯坦福CSS 229。本文便对该课程做了系统的整理。包括监督学习、非监督学习以及深度学习。可谓是是学习ML的“掌上备...

1482
来自专栏CSDN技术头条

基于深度学习的图像语义编辑

深度学习在图像分类、物体检测、图像分割等计算机视觉问题上都取得了很大的进展,被认为可以提取图像高层语义特征。基于此,衍生出了很多有意思的图像应用。 为了提升本文...

2996
来自专栏Echo is learning

machine learning 之 logistic regression

731
来自专栏SIGAI学习与实践平台

理解AdaBoost算法

与随机森林一样,Boosting算法也是一种集成学习算法,随机森林和集成学习在SIGAI之前的公众号文章“随机森林概述”中已经介绍。Boosting的分类器由多...

784

扫码关注云+社区