前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从机器学习到深度学习

从机器学习到深度学习

作者头像
企鹅号小编
发布2018-03-02 15:14:25
6820
发布2018-03-02 15:14:25
举报
文章被收录于专栏:企鹅号快讯

最近天宝在辛苦的找工作,好多热门的工作都有涉及到了深度学习,AI什么的。为此呢,便想着写点什么,解释一下什么是深度学习。然而呢,说来话长,要想从零开始了解深度学习,还是的从深度学习的起源,机器学习说起。

1 概念简介

深度学习是机器学习的一个重要分支,深度学习值的是使用多层的神经网络感知机进行数据的特征提取,以发现数据的分布式特征。

首先说一下机器学习,机器学习是根据已有的经验,不断的自动改进的计算机算法。也就是说,机器学习就是使用已有的数据,学习这些数据,得到与这些数据有关的规律。

在机器学习中主要涉及的任务有分类,回归,聚类这么几种。

1.1 分类

分类任务就是输入一个数据,输出的是这个数据所属的类别。

例如:

我们有一些鸢尾花的数据,数据包括花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性。 我们可以使用这个四个属性来进行分类鸢尾花属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

输入数据举例:[0.12,0.34.0.32.0.40]。说明花萼长度,花萼宽度,花瓣长度,花瓣宽度分别是0.12,0.34,0.32,0.40。对应的输出数据举例:[0,0,1]。说明这个数据 [0.12,0.34.0.32.0.40] 的鸢尾花 它属于最后一类Virginica鸢尾花。

输入数据举例:[0.05,0.14.0.12.0.20]。说明花萼长度,花萼宽度,花瓣长度,花瓣宽度分别是0.05,0.14.0.12.0.20。如果对应输出数据是[1,0,0]。说明这个数据 [0.12,0.34.0.32.0.40] 的鸢尾花它属于第一类Setosa鸢尾花。

如下图,三种不同类型的数据点被分割成了三个区域,虽然有些深棕色和浅棕色的点没能完全区分开来,但是基本上大致完成了数据的分类(注意,二维图表只能表示一个二维的数据,对于维度大于二维的数据,图表无法直接表示,例如本例中输入数据维度为4)。

2:回归

回归是根据已有的自变量和因变量的值,推出自变量和因变量之间的互相依赖的定量关系。

例如:有这么一组数据关系

X: [6,8,10,14,18]

Y: [7,9,13,17.5,18]

我们可以假设X表示一个披萨的大小,Y表示相应大小的披萨的价格。也就是说6英寸的披萨,价格是7美元,8英寸的是9美元,10英寸的是13美元......

然而我们现在是不知道12英寸的披萨的价格的,因为数据中并没有给出来12英寸的价格,那么我们如何预测12英寸披萨的价格呢?

那么我们需要求出披萨的大小和价格之间的关系Y=F(X)。然后根据这个关系F,求出F(12)的大小,这就是我们使用回归方法预测的12英寸披萨的价格。

下图中的五个数据点就是我们使用的5对数据,使用线性回归方法,我们可以得到一条直线,这条直线代表的函数是Y=0.9762931*X + 1.96551743,是一个典型的一元一次函数。因此F(12)大于等于13.68。最后我们便可以预测12英寸的披萨的价格是13.68美元。

3:聚类

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类的这个过程,本质上是根据 某种相似性进行抽象的过程。

具体的说呢,聚类就是根据数据的特征,将他们分成几个类。然而具体分成几个类,每个类表示什么样的含义,我们事先是不知道的。在分类任务中,我们事先知道了鸢尾花有三种类别Setosa,Versicolour,Virginica),我们的任务是要把一个新的数据划分到这三类中的一类中去。而聚类则是根据不同数据之间的相似度,尽可能的划分成几类。

例如有这样一些数据点,我们可以把数据聚类成2类(黑色点不去考虑),如下图:

也可以聚类为4类

聚类算法可以把最相似的一组数据划分成一类,它可以用来研究数据中的潜在分布规律。但是,聚类的结果根据模型,参数的不同,最后结果会有很大的变化。

以上是机器学习中最常解决的三种问题,其中分类和回归又被称为监督学习,聚类属于一种非监督学习。通过对比,我们可以知道这两者的主要区别。

监督学习需要的输入数据有两种,一个是特征数据(例如,鸢尾花的属性特征值,回归问题中的X的值),另一个是标签数据(鸢尾花数据所属的类别,回归问题中的Y的值)。

非监督学习只需要第一个特征数据,不需要标签数据。再进一步细分一下,监督学习中的分类和回归的区别是什么呢? 分类中的标签数据是离散数据(例如鸢尾花的种类取值只能是Setosa或Versicolour或Virginica)。而回归中的标签数据是连续数据(例如 Y表示的披萨的价格,其值可以是大于零的任何一个自然数)

以上就是针对机器学习做了什么,能做什么的一个基本介绍,具体如何完成这些任务呢,机器学习领域有这比较完备的理论与模型,在以后的文章里我会不断地给大家介绍。

本文来自企鹅号 - 天天还是个宝宝媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 天天还是个宝宝媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档