专栏首页机器学习实践二三事Machine Learning基础入门

Machine Learning基础入门

断断续续接触机器学习也差不多有1年多的时间了,论文看了一些,教程也看了一些,也动手写过一些东西,自认略微优点心得吧(大牛莫笑) 之前写的也很零散,所以这次就当做总结吧,也算是给自己的一个参考! 写的很浅显,主要追求通俗易懂,当然也是我的水平有限,目标就是做最好的入门资料[捂脸],有问题欢迎讨论!

声明:本专栏是在参考了网上众多资料和大牛的博客下整理收录的,如有侵权请联系作者删除,谢谢!

发展历史

这个已经有大牛写的很好了,参考这篇ML发展历史

ML的分类

按照是否存在监督,可划分成两类:

有监督的(supervised learning) 无监督的(unsupervisied learning)

按照学习方式的不同可以分为:

有监督的(除强化学习外) 无监督的 强化学习(reinforce learning)

按照具体的使用场景主要可以分为两类:

分类(classification) 回归(regression)

使用过程中我们都是按照具体的要求来进行,主要就是classificationregression,所以下面按照使用场景来说下

几个场景

基本上ML有如下几个场景:

  1. classification(example: SVM,KNN,CNN)
  2. regression(example: linear regression)
  3. clustering(example: k-means)
  4. dimensionality reduction(example: PCA)
  5. model selection(example: grid search,cross validation)
  6. preprocessing(example: standardization,variance scaling)

说到这,恐怕没有接触过ML的还是不知道我在说什么,下面就给大家先入为主的印象吧!

classification

大白话就是:给你一个目标预测此目标是属于哪一类的东西

实质就是预测x属于每一类的概率P(y|x),概率最大的y即为x的类别(label)

regression

通过不同的regression function来预测下个keyvalue是多少

比如说最简单的线性回归(linear regression):

clustering

主要的作用是:将某种规则下属于一类的物体归为一类,也就是聚类,典型的应用是k-means,比如下图:

dimensionality reduction

中文叫做降维,顾名思义就是用来降低数据的维度的,减少运算量. 在ML中往往由于输入数据维度过大,导致时间复杂度很高.但是输入数据往往是包含很多无用的信息的,一个想法就是:提取有用的信息,丢弃无用的或者贡献度较低的信息,来实现降维度的目的. 典型应用是主成分分析(principle component analysis),使用PCA可以把原本的维度大大降低,减小了运算成本

model selection

ML中经常遇到的就是有多个模型,如何选择模型,这需要一个科学的方法去得出数据(而不是人工的方式)来进行选择. 典型应用是交叉验证(cross validation),大致就是将数据集划分为不同的多个部分,使用其中的某些数据去训练模型,剩下的去验证这个模型的精度,可以进行比较科学的model selection.

preprocessing

往往我们直接拿到的原始数据是不能用在ML上的,在某些场景下可能需要进行预处理(preprocessing),比如:图像的去噪,数据的归一化等等. 这个需要视具体的任务和数据而定

先写到这,下篇继续

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Vim常用快捷键

    断断续续接触Vim也有几年了,从刚开始的用的很不习惯,到现在用不惯其它编辑器,真心觉得Vim你用的时间越久越能感觉到它的好,快捷,方便,简洁,功能强大 Vi...

    GavinZhou
  • Redis数据结构

    主要内容来源于书籍Redis实战(Redis In Action),这篇只是用来记录自己学习的过程,因为刚学所以很浅显,适合初学者哈 Redis数据结构 5种数...

    GavinZhou
  • ubuntu14.04+caffe2+OpenCV3.0安装的一些问题

    好久不用Caffe了,今天要转换个caffemodel到tensorflow,所以需要caffe的环境,原先预备pull个Docker镜像,最后发现死活下载不下...

    GavinZhou
  • 视频流媒体服务器EasyNVR直播平台如何搭建幼儿园网络监控系统?

    幼儿园网络监控系统解决方案不仅确保了孩子的安全,也提升了校园的形象,更让家长放心。针对幼儿园网络监控系统的特点,又由于数字网络视频技术的优势,我们提出基于视频平...

    EasyNVR
  • 《深入理解Java虚拟机》摘抄(1-3章)

    图片来源:https://docs.oracle.com/javase/8/docs/

    喜欢天文的pony站长
  • C++ OpenCV特征提取之Shi-Tomasi角点检测

    Shi-Tomasi角点检测的理论和Harris角点检测的理论几乎完全一致,唯一不同的是在使用矩阵特征

    Vaccae
  • TypeScript学习第三篇 - 函数的定义

    6. 在TypeScript中形参和实参必须一样,如果不一样就要配置可选参数,对可传可不传的参数添加 ?号。

    越陌度阡
  • Problem: Delete Number Problem

    这题可以使用贪心策略,每次从高位向低位数,删除高位比低位数字小的那位上的数字,直到删除了k位之后,得到的数字肯定是最大值。

    宅男潇涧
  • java虚拟机-数据区域

    经常有人把java内存区分为堆内存(Heap)和栈内存(Stack),这种分发比较粗糙.

    三哥
  • 深入理解Java虚拟机1——内存区域

    Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的区域。这些区域都有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存...

    超超不会飞

扫码关注云+社区

领取腾讯云代金券