机器学习简介

标题:

机器学习定义

人工智能、机器学习、深度学习的关系

机器学习的学习类别

数据(特征)的种类

几个空间的概念

机器学习的三要素

深度学习的兴起引领了人工智能的有一股热潮,特别是阿尔法狗(AlphaGO)在围棋中战胜了世界冠军之后,各大社交媒体大肆宣传,把深度学习形容的玄乎其玄,人工智能的概念就走进千家万户了。

回到正题,这篇推文旨在为大家普及一下机器学习的概念,以下是机器学习的介绍和定义。

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

对于某类任务T性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E中学习。

简单来说,机器学习是从现实问题出发,以计算机及计算机网络为计算平台,利用概率论、统计学等知识建立数学模型,采用凸分析等学科知识作为模型优化的理论基础。在大量数据的驱动下,提升模型的性能,使之能更好的完成某一个任务。(所谓的经验就是数据)

说了这么多可能大家还不太明白,毕竟概念还是要和例子结合,才能更好的理解嘛。

例如:我们想知道某市房子的住宅面积和单位面积房价的关系(任务T)。显然预测值和实际值的残差(性能度量P)的绝对值越小,证明模型的预测效果越好。现在我们手头里有一堆该市的房价信息以及房价对应的住宅面积的数据(经验E),我们希望通过这些数据获得一个模型,使得有给定的输入(住宅面积),会得到一个非常接近真实值的一个输出(房价),于是乎我们将一个实际问题转化为求解具体模型的问题。

(PS:残差:预测值与实际值的差)

另外还要注意不要弄错人工智能、机器学习以及深度学习之间的关系,如下图所示

机器学习是实现人工智能的一种途径,而深度学习则是机器学习中当前比较火的一个方法。如果只是想了解一下机器学习为何物的pong友,看到这里其实大概明白机器学习是什么玩意儿了。接下来会面向想入门机器学习的朋友,简单介绍机器学习一些概念。

机器学习按学习类别可以分为:

监督学习无监督学习半监督学习强化学习

监督学习:模型学习给定的训练数据,使得对其他的输入,能输出与真实值接近的输出。训练数据包括输入的特征和对应输出的结果。主要解决分类回归任务。

无监督学习:是指模型学习给定的特征,训练数据没有提供作为评判正确或误差的输出。主要是聚类

半监督学习:介于监督学习与无监督学习之间的一种学习方式。

强化学习:即是通过建立一个反馈系统来提升模型的性能,当模型做对了,则给予奖励,错误即给予惩罚的一种学习方式。

数据(特征)也分为离散型连续型两种。

离散型:如性别,离散型数据的取值有限个。

连续型:如身高,连续型数据的取值无限个。

PS:机器学习中常常把连续型特征转变为离散型特征,以上面房价-住宅面积为例,也许在某一个区间内,住宅面积波动对房价的影响非常小,选用离散型数据某种程度上是模型变得简单,同时也可以降低数据噪声(异常数据)对训练的影响。

接下来引入《统计学习方法》中提到的几个概念

输入空间:输入所有可能的取值构成输入空间(如上面的例子,住宅面积就是大于0的实数)

输出空间:输出所有可能的取值构成输出空间(房价也是大于零的实数)

特征空间:所有特征向量存在的空间称为特征空间,模型是定义在特征空间上的(住宅面积是一个特征,上例的输入空间和特征空间一致,但是也有不一致的情况,这种情况以后会提到)

假设空间:即所有可能模型的集合(当你打算用一元一次方程来拟合上例的时候,那么你的假设空间就是所有可能的一元一次方程的集合)

接下来讲一下机器学习的三要素

1.模型:但你想解决某一个问题的时候,你回去思考,用什么模型才能达到更好的效果(线性回归、逻辑回归...),只有你确定了怎么使用模型,你才能确定的假设空间,你才能开始学习(学习的过程即是在假设空间中找到最优模型的过程)。

2.策略:如何使的模型达到最优,以考试为例,如果你想拿高分,那么你把题都做对了不就高分了吗(废话!)。但从另一个角度想只要把错题做对,从错误吸取教训,渐渐的就能考到高分。以上就提到了两种策略,从正例入手,或从降低错误率(误差)入手。还有很多不同的学习策略,比如决策树ID3是基于信息增益来学习的,在这里不多阐述(以后会讲),只要知道选择的学习策略不同,有可能对模型的性能会有很大的影响。

3.算法:算法是把学习的步骤的具体描述,因为我们是用计算机来进行训练模型,只有把学习过程转化为具体算法,才可以用代码实现具体的功能。

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

sklearn集成学习:如何调参?

---- Random Forest和Gradient Tree Boosting参数详解 2 如何调参?   2.1 调参的目标:偏差和方差的协调   2...

49170
来自专栏数据派THU

【独家】一文读懂聚类算法

1. 聚类的基本概念 1.1 定义 聚类是数据挖掘中的概念,就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能...

40170
来自专栏机器之心

计算机视觉这一年:这是最全的一份CV技术报告

33760
来自专栏AI2ML人工智能to机器学习

一步一步走向锥规划 - LS

一般来说凸优化(Convex Optimization, CO)中最一般的是锥规划 (Cone Programming, CP) 问题, 最简单的是最小二乘(...

11010
来自专栏阅读笔记

CVRP 2017|DLP-CNN & center loss & Island loss

面部表情识别很大程度上依赖于定义好的数据集,然而这样的数据集往往存在着很多的限制。现有的面部表情数据集往往在严格控制的实验条件下,受试者和测试环境均不具有多样性...

42610
来自专栏AI2ML人工智能to机器学习

一个奇异值的江湖 -- 机器学习观

前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。

9220
来自专栏华章科技

计算机视觉这一年:这是最全的一份CV技术报告

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者...

8010
来自专栏大数据文摘

想去机器学习初创公司做数据科学家?这里有最常问的40道面试题

26450
来自专栏目标检测和深度学习

读完这个你就彻底懂深度学习中的卷积了!

14310
来自专栏量化投资与机器学习

比较13种算法在165个数据集上的表现,你猜哪个最好?

30050

扫码关注云+社区

领取腾讯云代金券