专栏首页企鹅号快讯从机器学习到深度学习

从机器学习到深度学习

最近天宝在辛苦的找工作,好多热门的工作都有涉及到了深度学习,AI什么的。为此呢,便想着写点什么,解释一下什么是深度学习。然而呢,说来话长,要想从零开始了解深度学习,还是的从深度学习的起源,机器学习说起。

1 概念简介

深度学习是机器学习的一个重要分支,深度学习值的是使用多层的神经网络感知机进行数据的特征提取,以发现数据的分布式特征。

首先说一下机器学习,机器学习是根据已有的经验,不断的自动改进的计算机算法。也就是说,机器学习就是使用已有的数据,学习这些数据,得到与这些数据有关的规律。

在机器学习中主要涉及的任务有分类,回归,聚类这么几种。

1.1 分类

分类任务就是输入一个数据,输出的是这个数据所属的类别。

例如:

我们有一些鸢尾花的数据,数据包括花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性。 我们可以使用这个四个属性来进行分类鸢尾花属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

输入数据举例:[0.12,0.34.0.32.0.40]。说明花萼长度,花萼宽度,花瓣长度,花瓣宽度分别是0.12,0.34,0.32,0.40。对应的输出数据举例:[0,0,1]。说明这个数据 [0.12,0.34.0.32.0.40] 的鸢尾花 它属于最后一类Virginica鸢尾花。

输入数据举例:[0.05,0.14.0.12.0.20]。说明花萼长度,花萼宽度,花瓣长度,花瓣宽度分别是0.05,0.14.0.12.0.20。如果对应输出数据是[1,0,0]。说明这个数据 [0.12,0.34.0.32.0.40] 的鸢尾花它属于第一类Setosa鸢尾花。

如下图,三种不同类型的数据点被分割成了三个区域,虽然有些深棕色和浅棕色的点没能完全区分开来,但是基本上大致完成了数据的分类(注意,二维图表只能表示一个二维的数据,对于维度大于二维的数据,图表无法直接表示,例如本例中输入数据维度为4)。

2:回归

回归是根据已有的自变量和因变量的值,推出自变量和因变量之间的互相依赖的定量关系。

例如:有这么一组数据关系

X: [6,8,10,14,18]

Y: [7,9,13,17.5,18]

我们可以假设X表示一个披萨的大小,Y表示相应大小的披萨的价格。也就是说6英寸的披萨,价格是7美元,8英寸的是9美元,10英寸的是13美元......

然而我们现在是不知道12英寸的披萨的价格的,因为数据中并没有给出来12英寸的价格,那么我们如何预测12英寸披萨的价格呢?

那么我们需要求出披萨的大小和价格之间的关系Y=F(X)。然后根据这个关系F,求出F(12)的大小,这就是我们使用回归方法预测的12英寸披萨的价格。

下图中的五个数据点就是我们使用的5对数据,使用线性回归方法,我们可以得到一条直线,这条直线代表的函数是Y=0.9762931*X + 1.96551743,是一个典型的一元一次函数。因此F(12)大于等于13.68。最后我们便可以预测12英寸的披萨的价格是13.68美元。

3:聚类

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类的这个过程,本质上是根据 某种相似性进行抽象的过程。

具体的说呢,聚类就是根据数据的特征,将他们分成几个类。然而具体分成几个类,每个类表示什么样的含义,我们事先是不知道的。在分类任务中,我们事先知道了鸢尾花有三种类别Setosa,Versicolour,Virginica),我们的任务是要把一个新的数据划分到这三类中的一类中去。而聚类则是根据不同数据之间的相似度,尽可能的划分成几类。

例如有这样一些数据点,我们可以把数据聚类成2类(黑色点不去考虑),如下图:

也可以聚类为4类

聚类算法可以把最相似的一组数据划分成一类,它可以用来研究数据中的潜在分布规律。但是,聚类的结果根据模型,参数的不同,最后结果会有很大的变化。

以上是机器学习中最常解决的三种问题,其中分类和回归又被称为监督学习,聚类属于一种非监督学习。通过对比,我们可以知道这两者的主要区别。

监督学习需要的输入数据有两种,一个是特征数据(例如,鸢尾花的属性特征值,回归问题中的X的值),另一个是标签数据(鸢尾花数据所属的类别,回归问题中的Y的值)。

非监督学习只需要第一个特征数据,不需要标签数据。再进一步细分一下,监督学习中的分类和回归的区别是什么呢? 分类中的标签数据是离散数据(例如鸢尾花的种类取值只能是Setosa或Versicolour或Virginica)。而回归中的标签数据是连续数据(例如 Y表示的披萨的价格,其值可以是大于零的任何一个自然数)

以上就是针对机器学习做了什么,能做什么的一个基本介绍,具体如何完成这些任务呢,机器学习领域有这比较完备的理论与模型,在以后的文章里我会不断地给大家介绍。

本文来自企鹅号 - 天天还是个宝宝媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据的现状、机遇与挑战

    汪浩 .大数据的现状、机遇与挑战[J/OL], 2017,5(1):30-35. 大数据的现状、机遇与挑战 汪浩 摘要 大数据的数据量非常巨大,以至传统数据储存...

    企鹅号小编
  • 盘点:今年GitHub上最火的15个机器学习项目

    在本文中,作者列出了 2017 年 GitHub 平台上最为热门的知识库,囊括了数据科学、机器学习、深度学习中的各种项目,希望能对大家学习、使用有所帮助。 Gi...

    企鹅号小编
  • 大数据富矿时代来临,一拥而上互相蚕食还是系统性挖掘?

    大数据在科学家们的眼里只有数字的价值,而在商业公司眼里大数据的商业价值更是可观。对于很多人来说,大数据就是0和1,在一个个数据没有联系、被发现规律之前,基本不具...

    企鹅号小编
  • 八步拿下数据科学,攻克 “21世纪最性感的工作”

    在数据科学(Data Science)领域,除了“什么是数据科学”这个问题以外,大家最感兴趣的问题就是“如何学习数据科学?”其实这个问题除了新手会问,有时候领域...

    AI科技评论
  • 八步拿下数据科学,攻克 “21世纪最性感的工作”

    在数据科学(Data Science)领域,除了“什么是数据科学”这个问题以外,大家最感兴趣的问题就是“如何学习数据科学?”其实这个问题除了新手会问,有时候领域...

    智能算法
  • 小白上路?工程师转型?应届毕业生?三种“圈外人”的数据科学入行指南

    本文作者深受其害,这些繁多的资料使得不少有抱负的准数据科学家很困惑,到底如何分配时间到他们想进入的领域。

    大数据文摘
  • 【干货】监督学习与无监督学习简介

    【导读】本文是一篇入门级的概念介绍文章,主要带大家了解一下监督学习和无监督学习,理解这两类机器学习算法的不同,以及偏差和方差详细阐述。这两类方法是机器学习领域中...

    WZEARW
  • OpenCV学习入门(三):kmeans原理及代码

    Kmeans是一种非监督的聚类方法,是最常用的聚类技术之一。kmeans尝试找到数据的自然类别,通过用户设定的类别个数K,它可以快速的找到“好的”类别中心,“好...

    用户1150922
  • 如何正确选择聚类算法? | CSDN博文精选

    本文将介绍四种基本的聚类算法—层次聚类、基于质心的聚类、最大期望算法和基于密度的聚类算法,并讨论不同算法的优缺点。

    AI科技大本营
  • 独家 | 如何正确选择聚类算法?

    数据聚类是搭建一个正确数据模型的重要步骤。数据分析应当根据数据的共同点整理信息。然而主要问题是,什么通用性参数可以给出最佳结果,以及什么才能称为“最佳”。

    数据派THU

扫码关注云+社区

领取腾讯云代金券