专栏首页决胜机器学习机器学习(一)——机器学习概述

机器学习(一)——机器学习概述

机器学习(一)——机器学习概述

(原创内容,转载请注明来源,谢谢)

前言:近期开始学习机器学习,当前视频和书籍一起看,视频看的是吴恩达的机器学习系列课程,书籍看的《机器学习实战》。目前是机器学习小白,希望各位有感兴趣的,可以一起开始学机器学习。大家可以多交流~~

另外,由于工作上还是在做web服务端,因此还会经常更新对于web的学习体会~希望大家共同进步。

一、概述

机器学习是近期非常火的技术,其可以将输入的数据经过一定的处理,得到结果,具有预测、决策、统计、分类等功能,被广泛应用于各行各业。

机器学习主要分为两大类:监督学习(supervisor learning)和无监督学习(unsupervisor learning)。

二、监督学习

1、概念

监督学习,指的是在已知结果的类别的情况下,将一系列的数据交给计算机,由其进行处理后,得出不同数据是从属于哪个类别的。

2、主要任务

监督学习主要用于分类、回归两大功能。

1)分类

分类的结果是离散的。例如要将不同的花进行分类,根据花的颜色、形状、大小等因素,得出花的类型。对于这个工作,首先其总的类别是已知的,所以称为监督学习,其次其结果是有限个的,所以其叫做分类。

2)回归

与分类相对,回归是处理连续的结果。例如根据房子的面积、地段、楼层、朝向等因素,预测房子的价格。虽然价格最多精确到分,但是还是可以看作是连续函数。另外,由于可以确定结果就是价格,所以结果类别是已知的,所以也是监督学习。

3、常用算法

监督学习常用的算法包括:K-近邻(KNN)、线性回归、朴素贝叶斯、局部加权线性回归、支持向量机(SVM)、Ridge回归、决策树、Lasso最小回归系数估计等。

三、无监督学习

1、概念

无监督学习,指的是结果未知的情况下,给计算机一系列数据,由计算机自行处理后,得出不同结果的分类。

2、主要任务

无监督学习主要用于聚类、密度估计功能,另外对于降低数据维度也有重要作用。

1)聚类

可以类比监督学习的分类,聚类就是在未知结果有哪些类别的情况下,离散的数据经由计算机计算后,得出结果的过程。例如很多门户网站的新闻列表,都是从各个网站上将链接抓取,再分析新闻的内容,进行聚类。

2)密度估计

可以类比回归。密度估计即在未知结果类别情况下,将连续的数据给计算机,由其计算并告知结果。

3、常用算法

无监督学习常用的算法包括:K-均值(K-Means)、最大期望算法、DBSCAN、Parzen窗设计等。

四、机器学习开发步骤

机器学习应用开发,主要步骤如下:

1、收集数据

对于机器学习来说,没有数据就没有学习可言。数据可以是爬虫抓取、开源语料库、自己提供的数据源等。

2、准备输入数据(人工)

根据需要处理的数据,对格式进行整理,以便后续处理。这一步骤是人工进行。

3、分析输入数据(人工)

这一步骤主要是剔除错误数据。对于明显错误的数据,可以人工剔除。但是这个会增大工作量,对于好的算法而言,可以省略这个步骤。

4、训练算法

这一步骤是专门针对监督学习而言的。

监督学习由于已经知道结果的类别,因此,需要先给计算机一组数据,是一组类似{特征1,特征2,…特征N,结果}的数据集合,让计算机进行“学习”。

对于无监督学习,由于不确定结果的类型,因此不需要“学习”。

5、测试算法

这一步是非常重要的。给定一些数据,让计算机告知处理后的结果,并且人工查看结果是否符合要求。对于不符合要求的,需要重新调整算法的参数。

6、使用算法

在项目中使用算法。

——written by linhxx 2017.12.27

本文分享自微信公众号 - 决胜机器学习(phpthinker),作者:linhxx

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • PHP网络技术(三)——CURL实现跨服务取接口功能

    PHP网络技术(三)——CURL实现跨服务取接口功能 (原创内容,转载请注明来源,谢谢) PHP的curl类库,可以实现远程访问、页面抓取、表...

    用户1327360
  • 《高性能MySQL》读书笔记(二) ——MySQL存储引擎概述

    《高性能MySQL》读书笔记(二)——MySQL存储引擎概述 (原创内容,转载请注明来源,谢谢) 一、基础信息 mysql将数据库保存在数据目录下...

    用户1327360
  • 《Redis设计与实现》读书笔记(八) ——Redis列表对象和哈希对象实现原理

    《Redis设计与实现》读书笔记(八) ——Redis列表对象和哈希对象实现原理 (原创内容,转载请注明来源,谢谢) 一、列表对象 列表对象的编码可以是zipl...

    用户1327360
  • 监督式和非监督式机器学习算法

    监督式学习指的是你拥有一个输入变量和一个输出变量,使用某种算法去学习从输入到输出的映射函数

    用户1359560
  • 安静的半监督学习革命,一起清理未标记的数据

    对于机器学习工程师来说,访问大量数据十分重要,但有标记的数据很有限。处于此困境的人可能会查阅文献,思考下一步该做什么,而文献似乎都会给出一个现成的答案:半监督学...

    AiTechYun
  • “机器学习”三重门,“中庸之道”趋若人

    博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/...

    用户1682855
  • 半监督学习革命

    来源商业新知,原标题:干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个

    商业新知
  • 简单易懂的讲解深度学习(入门系列之四)

    在前一个小节中,简单地谈了谈什么是“M-P神经元模型”,顺便用生活中生动的小案例,把激活函数和卷积函数的概念撸了一遍。下笔之处,尽显“神经”。当然这里所谓的“神...

    计算机视觉研究院
  • 机器学习的未来:半监督学习

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。

    统计学家
  • 比监督学习做的更好:半监督学习

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。

    石晓文

扫码关注云+社区

领取腾讯云代金券