从机器学习到深度学习

最近天宝在辛苦的找工作,好多热门的工作都有涉及到了深度学习,AI什么的。为此呢,便想着写点什么,解释一下什么是深度学习。然而呢,说来话长,要想从零开始了解深度学习,还是的从深度学习的起源,机器学习说起。

1 概念简介

深度学习是机器学习的一个重要分支,深度学习值的是使用多层的神经网络感知机进行数据的特征提取,以发现数据的分布式特征。

首先说一下机器学习,机器学习是根据已有的经验,不断的自动改进的计算机算法。也就是说,机器学习就是使用已有的数据,学习这些数据,得到与这些数据有关的规律。

在机器学习中主要涉及的任务有分类,回归,聚类这么几种。

1.1 分类

分类任务就是输入一个数据,输出的是这个数据所属的类别。

例如:

我们有一些鸢尾花的数据,数据包括花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性。 我们可以使用这个四个属性来进行分类鸢尾花属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

输入数据举例:[0.12,0.34.0.32.0.40]。说明花萼长度,花萼宽度,花瓣长度,花瓣宽度分别是0.12,0.34,0.32,0.40。对应的输出数据举例:[0,0,1]。说明这个数据 [0.12,0.34.0.32.0.40] 的鸢尾花 它属于最后一类Virginica鸢尾花。

输入数据举例:[0.05,0.14.0.12.0.20]。说明花萼长度,花萼宽度,花瓣长度,花瓣宽度分别是0.05,0.14.0.12.0.20。如果对应输出数据是[1,0,0]。说明这个数据 [0.12,0.34.0.32.0.40] 的鸢尾花它属于第一类Setosa鸢尾花。

如下图,三种不同类型的数据点被分割成了三个区域,虽然有些深棕色和浅棕色的点没能完全区分开来,但是基本上大致完成了数据的分类(注意,二维图表只能表示一个二维的数据,对于维度大于二维的数据,图表无法直接表示,例如本例中输入数据维度为4)。

2:回归

回归是根据已有的自变量和因变量的值,推出自变量和因变量之间的互相依赖的定量关系。

例如:有这么一组数据关系

X: [6,8,10,14,18]

Y: [7,9,13,17.5,18]

我们可以假设X表示一个披萨的大小,Y表示相应大小的披萨的价格。也就是说6英寸的披萨,价格是7美元,8英寸的是9美元,10英寸的是13美元......

然而我们现在是不知道12英寸的披萨的价格的,因为数据中并没有给出来12英寸的价格,那么我们如何预测12英寸披萨的价格呢?

那么我们需要求出披萨的大小和价格之间的关系Y=F(X)。然后根据这个关系F,求出F(12)的大小,这就是我们使用回归方法预测的12英寸披萨的价格。

下图中的五个数据点就是我们使用的5对数据,使用线性回归方法,我们可以得到一条直线,这条直线代表的函数是Y=0.9762931*X + 1.96551743,是一个典型的一元一次函数。因此F(12)大于等于13.68。最后我们便可以预测12英寸的披萨的价格是13.68美元。

3:聚类

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类的这个过程,本质上是根据 某种相似性进行抽象的过程。

具体的说呢,聚类就是根据数据的特征,将他们分成几个类。然而具体分成几个类,每个类表示什么样的含义,我们事先是不知道的。在分类任务中,我们事先知道了鸢尾花有三种类别Setosa,Versicolour,Virginica),我们的任务是要把一个新的数据划分到这三类中的一类中去。而聚类则是根据不同数据之间的相似度,尽可能的划分成几类。

例如有这样一些数据点,我们可以把数据聚类成2类(黑色点不去考虑),如下图:

也可以聚类为4类

聚类算法可以把最相似的一组数据划分成一类,它可以用来研究数据中的潜在分布规律。但是,聚类的结果根据模型,参数的不同,最后结果会有很大的变化。

以上是机器学习中最常解决的三种问题,其中分类和回归又被称为监督学习,聚类属于一种非监督学习。通过对比,我们可以知道这两者的主要区别。

监督学习需要的输入数据有两种,一个是特征数据(例如,鸢尾花的属性特征值,回归问题中的X的值),另一个是标签数据(鸢尾花数据所属的类别,回归问题中的Y的值)。

非监督学习只需要第一个特征数据,不需要标签数据。再进一步细分一下,监督学习中的分类和回归的区别是什么呢? 分类中的标签数据是离散数据(例如鸢尾花的种类取值只能是Setosa或Versicolour或Virginica)。而回归中的标签数据是连续数据(例如 Y表示的披萨的价格,其值可以是大于零的任何一个自然数)

以上就是针对机器学习做了什么,能做什么的一个基本介绍,具体如何完成这些任务呢,机器学习领域有这比较完备的理论与模型,在以后的文章里我会不断地给大家介绍。

本文来自企鹅号 - 天天还是个宝宝媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度 | 一文概览图卷积网络基本结构和最新进展

选自tkipf.github 作者:Thomas Kipf 机器之心编译 参与:李诗萌、刘晓坤 本文介绍了图卷积网络的基本结构,和最新的研究进展,并指出了当前...

4419
来自专栏AI研习社

做AI必须要知道的十种深度学习方法

不管是AI也好,其他学科也好,学习、研究的过程中不断反思学科的历史,总结学科的发展现状,找出最重要的理念,总能让人能“吾道一以贯之”。软件工程师James Le...

3755
来自专栏SIGAI学习与实践平台

目标检测算法之YOLO

先假设一个场景,幼儿园老师给小朋友们出了一个题目,看谁能最快的找出笑的最美的那张脸?各位SIGAIer也可以试验下,和小朋友们比比测试下自己的辨识能力。

1852
来自专栏人工智能

线性判别分析篇

AI君分分钟带你读懂AI技术 ? 线性判别分析 Linear Discriminant Analysis 概述 这篇文章里,AI君想要跟大家讲讲线性判别分析,英...

2747
来自专栏大数据挖掘DT机器学习

机器学习算法的R语言实现:朴素贝叶斯分类器

1、引子 朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中 朴素 的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其...

3079
来自专栏数据派THU

深度学习模型复现难?看看这篇句子对模型的复现论文

本文是COLING 2018的 Best Reproduction Paper,文章对sentence pair modeling进行了比较全面的介绍。

1604
来自专栏AI科技评论

独家 |《TensorFlow实战》作者黄文坚:四大经典CNN网络技术原理

AI科技评论按:2月28日下午3点,《TensorFlow实战》作者黄文坚做客【硬创公开课】,为我们讲解了关于四大经典CNN网络:AlexNet、VGGNet、...

5189
来自专栏机器人网

具有启发性的十种深度学习方法

 不管是AI也好,其他学科也好,学习、研究的过程中不断反思学科的历史,总结学科的发展现状,找出重要的理念,总能让人能“吾道一以贯之”。软件工程师James Le...

37411
来自专栏AI科技评论

学界 | 蒙特利尔大学Bengio团队携手多伦多大学带来最新成果:方差正则化对抗学习

AI科技评论消息,由多伦多大学与蒙特利尔大学的Karan Grewal、R Devon Hjelm、Yoshua Bengio三人近日合作发表的文章《Varia...

2985
来自专栏人工智能

最新机器学习必备十大入门算法!都在这里了

原文来源:KDnuggets 作者:Reena Shaw 「雷克世界」编译:BaymaxZ ? 我们向初学者介绍十大机器学习(ML)算法,并附上数字和示例,方便...

2247

扫码关注云+社区

领取腾讯云代金券