Machine Learning基础入门

断断续续接触机器学习也差不多有1年多的时间了,论文看了一些,教程也看了一些,也动手写过一些东西,自认略微优点心得吧(大牛莫笑) 之前写的也很零散,所以这次就当做总结吧,也算是给自己的一个参考! 写的很浅显,主要追求通俗易懂,当然也是我的水平有限,目标就是做最好的入门资料[捂脸],有问题欢迎讨论!

声明:本专栏是在参考了网上众多资料和大牛的博客下整理收录的,如有侵权请联系作者删除,谢谢!

发展历史

这个已经有大牛写的很好了,参考这篇ML发展历史

ML的分类

按照是否存在监督,可划分成两类:

有监督的(supervised learning) 无监督的(unsupervisied learning)

按照学习方式的不同可以分为:

有监督的(除强化学习外) 无监督的 强化学习(reinforce learning)

按照具体的使用场景主要可以分为两类:

分类(classification) 回归(regression)

使用过程中我们都是按照具体的要求来进行,主要就是classificationregression,所以下面按照使用场景来说下

几个场景

基本上ML有如下几个场景:

  1. classification(example: SVM,KNN,CNN)
  2. regression(example: linear regression)
  3. clustering(example: k-means)
  4. dimensionality reduction(example: PCA)
  5. model selection(example: grid search,cross validation)
  6. preprocessing(example: standardization,variance scaling)

说到这,恐怕没有接触过ML的还是不知道我在说什么,下面就给大家先入为主的印象吧!

classification

大白话就是:给你一个目标预测此目标是属于哪一类的东西

实质就是预测x属于每一类的概率P(y|x),概率最大的y即为x的类别(label)

regression

通过不同的regression function来预测下个keyvalue是多少

比如说最简单的线性回归(linear regression):

clustering

主要的作用是:将某种规则下属于一类的物体归为一类,也就是聚类,典型的应用是k-means,比如下图:

dimensionality reduction

中文叫做降维,顾名思义就是用来降低数据的维度的,减少运算量. 在ML中往往由于输入数据维度过大,导致时间复杂度很高.但是输入数据往往是包含很多无用的信息的,一个想法就是:提取有用的信息,丢弃无用的或者贡献度较低的信息,来实现降维度的目的. 典型应用是主成分分析(principle component analysis),使用PCA可以把原本的维度大大降低,减小了运算成本

model selection

ML中经常遇到的就是有多个模型,如何选择模型,这需要一个科学的方法去得出数据(而不是人工的方式)来进行选择. 典型应用是交叉验证(cross validation),大致就是将数据集划分为不同的多个部分,使用其中的某些数据去训练模型,剩下的去验证这个模型的精度,可以进行比较科学的model selection.

preprocessing

往往我们直接拿到的原始数据是不能用在ML上的,在某些场景下可能需要进行预处理(preprocessing),比如:图像的去噪,数据的归一化等等. 这个需要视具体的任务和数据而定

先写到这,下篇继续

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

决策树--从原理到Python实现

决策树基本上是每一本机器学习入门书籍必讲的东西,其决策过程和平时我们的思维很相似,所以非常好理解,同时有一堆信息论的东西在里面,也算是一个入门应用,决策树也有回...

2947
来自专栏AI研习社

通过嵌入隐层表征来理解神经网络

可视化神经网络总是很有趣的。例如,我们通过神经元激活的可视化揭露了令人着迷的内部实现。对于监督学习的设置,神经网络的训练过程可以被认为是将一组输入数据点变换为可...

682
来自专栏应兆康的专栏

20. 偏差和方差

假设你的训练集,开发集和测试集都来自同一分布。那么你会觉得获取更多的训练数据就可以提高性能,对吗? 尽管更多的数据是无害的,但它并不是总会像我们所期望的那样有用...

3329
来自专栏数说工作室

什么是维数灾难?

SVM第一话(回复 SVM1 查看)里提到了“维数灾难”,什么是维数灾难呢? 维数灾难(英语:curseof dimensionality,又名维度的诅咒)是一...

27610
来自专栏数据小魔方

sparklines迷你图系列12——Composition(Cascade)

今天继续跟大家分享的sparklines迷你图系列12——Composition(Cascade)。 不知道为啥这个图的名字英文看起来这么怪,但是其实他就是我们...

2664
来自专栏Fish

Andrew Ng的机器学习课程概述(一)

写在最前面 吴神的机器学习神课,网上也有很多写得很好的笔记了比如:很好的中文版;更好的英文版 在视频看累的时候看看这个基本上也错过不了知识点。 这门课基本...

1739
来自专栏null的专栏

CTR——人工神经网络+决策树

一、引言    这是篇论文的笔记,记录阅读该论文中的一些体会,希望与大家一起学到知识。论文题目为《Using neural networks for click...

5268
来自专栏CDA数据分析师

一篇文章了解贝叶斯机器学习

你知道贝叶斯法则。机器学习与它有何相关?它可能很难掌握如何把拼图块放在一起——我们了解它花了一段时间。 贝叶斯和频率论者 在本质上,贝叶斯意味着概率。这个具体的...

1826
来自专栏大数据文摘

机器学习性能改善备忘单:32个帮你做出更好预测模型的技巧和窍门

1665
来自专栏数说工作室

文本相似比较

大家好,我是数说君,这篇文章是想跟大家讨教一下。 如果有两段简单文本,如何比较它们的相似度?这里我们就假设是英文,不存在中文的分词问题,文本就类似于: text...

34614

扫码关注云+社区