数据、学习和模型

机器学习中有几个关键的概念,这些概念为理解机器学习这个领域奠定了基础。

你将会在本文中学习到这些用于描述数据和数据集的术语条目(标准条目)。

除此之外,你也会学到从数据中引申出来的学习和建模的概念和术语,在机器学习的旅行中,这些内容将会给你带来极有价值的直观认知。

数据

机器学习方法是从既有案例中学习到的,所以透彻理解输入数据和熟练掌握用于描述数据的术语是非常重要的事情。在本节中,我们会在谈论数据的时候学习机器学习中使用的术语。

谈到数据,我通常会想到由行和列组成的二维表。例如数据库表和Excel电子表格。这是一种传统的数据结构,在机器学习领域中是很常见的。除此之外的数据有图像、视频和文本,至于那些非结构化数据则不在考虑范围内。

显示一个实例、特性、测试数据集合训练数据集的表格

实例: 单行数据被称为实例,是数据域的一个观测样本。

特征: 单列数据被称为特征,是观测样本的组成部分,也被称为数据实例的属性,一些特征可能是模型(预测变量)的输入,其他的特征可能是输入或者预测的特征。

数据类型: 特征具有一个数据类型,它们可能是实数或者整数值,也有可能是分类变量或者定序变量。你可以用字符串,日期,时间和更复杂的数据类型,但是在使用传统的机器学习方法时,通常会将这些数据类型缩减成实数类型或者分类变量。

数据集: 数据集是多个实例的集合,在使用机器学习方法的时候,为了完成特定的目的,我们通常会需要一些的数据集。

训练数据集: 我们提供给机器学习算法,用来训练模型的数据集。

测试数据集: 用来校验模型准确性的数据集,但是不可用于训练模型。我们也可称之为校验数据集。

我们可能有必要收集数据实例来构成我们的数据集,或者我们可能会得到一个有限的数据集,然后有必要将它划子数据集。

学习

机器学习本质上就是算法的自动学习。

我们会在本节中思考一些机器学习的高级概念。

归纳法:机器学习算法通过模拟归纳或者归纳学习的过程来完成学习。归纳是一种推理过程,它由特定的信息(训练数据)归纳出泛化结果(模型)。

泛化:模型由机器学习算法提供,它需要根据不同于训练数据集的数据实例来做出预测或者判断,所以说泛化是有必要的

过度学习:一个模型过于频繁地学习训练数据集而不进行归纳,就被称之为过度学习。会导致的结果就是除了训练数据集之外,其他数据表现的性能都很差。这也被称之为“过拟合”。

学习不足:由于学习过程被提前终止,模型没有从数据库中学习到足够的数据实例结构,这就叫做“学习不足”。导致模型的泛化能力很好,但是在所有数据集上表现的性能不佳,包括训练数据集。这也被称为“欠拟合”。

线上学习:线上学习是指在数据域可用的时候,通过方法从数据域上更新数据实例。线上学习需要健壮的方法来处理数据,这些数据虽然嘈杂但是可以生成与当前域的状态相一致的模型。

线下学习:线下学习是指在预先在准备好的数据中创建一个方法,然后在未观察的数据上进行处理。因为训练数据的参数是已知的,所以训练过程是可控的,并且可以很好地进行调整。模型在训练完成后不会更新,如果数据域的状态发生变化,模型性能可能会降低。

有监督学习:这是一个在需要预测的问题上进行归纳的学习过程。“学习过程”将模型的预测结果与已知结果进行比较,然后在模型中进行修正。

无监督学习:这是一个在不需要进行预测的情况下对数据结构进行归纳的学习过程,识别并利用学习对象中天然的特性结构,并将这些特性用于数据实例的相互关联。

我在之前的机器学习算法文章中已经介绍过了有监督学习和无监督学习。如果根据它们的行为对算法进行分类,那这些术语会很有用。

模型

机器学习过程所创造的人工智能可以被认定为一个程序。

模型选择:我们可以将模型的训练和配置看作是一个模型选择的过程,可以选择使用或者修改每次迭代产生的新模型。即便是机器学习算法的选择同样可以看作是模型选择的一部分,对于已知问题的所有可能的模型,我们可以由给定的算法和基于给定数据集的算法配置最终确定要选择的模型。

归纳偏差:偏差是施加于模型之上的限制。任何模型都具有偏差,它们会将错误引入模型。并且根据定义,所有模型都具有误差(这是从观察中归纳出来的)。模型的泛化能力决定了引入偏差的大小,而模型的泛化能力则受模型配置和模型的生成算法选择的影响。一个机器学习方法可以创建一个有或高或低偏差的模型,并借此模型来降低高度偏倚模型的偏差。

模型方差:方差表示出了模型对训练数据的敏感度。当在训练数据集的基础上创建模型时,机器学习方法可能会有或高或低的方差。降低模型方差的一种策略是这样的,改变数据集的初始条件并多次运行,然后取平均值作为模型的精度值。

偏差-方差权衡:模型的选择可以看作是偏差和方差彼此妥协。一个偏差低的模型会有一个高方差处理,并且需要经过很长时间的数据训练才能得到一个可用的模型。而偏差高的模型会有一个低方差处理,并且会快速地进行数据训练,但还是会受到微小且极其有限的影响。

资源

如果你想深入了解的话,可用参考下面的资源。

本文的版权归 白加黑大人 所有,如需转载请联系作者。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

IJCAI 2018 | 阿里提出IncepText:全新多向场景文本检测模块

2834
来自专栏磐创AI技术团队的专栏

一个完整的机器学习项目在Python中的演练(三)

1451
来自专栏决胜机器学习

循环神经网络(四) ——words2vec、负采样、golve

2495
来自专栏CSDN技术头条

逻辑回归 vs 决策树 vs 支持向量机(II)

本文是该系列的第二篇,第一篇参见: 逻辑回归 Vs 决策树 Vs 支持向量机: Part I. 在这篇文章,我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳...

2016
来自专栏CreateAMind

论文解读:生成模型采样-类比学习应用 多图

951
来自专栏机器之心

学界 | FAIR提出突触可塑算法:让神经网络学会记忆和遗忘

选自arXiv 作者:Rahaf Aljundi 等 机器之心编译 参与:刘晓坤 Facebook AI 研究院近日联合 KU Leuven 提出了一种由著名神...

35610
来自专栏机器之心

从自编码器到生成对抗网络:一文纵览无监督学习研究现状

选自Medium 机器之心编译 参与:Nurhachu、蒋思源、吴攀 无监督学习是深度学习的圣杯。它的目的是希望能够用极少量且不需要标注的数据训练通用系统。本文...

3919
来自专栏PPV课数据科学社区

机器学习:你需要多少训练数据?

作者为Google 软件工程师,美国西北大学电子信息工程博士,擅长大规模分布式系统,编译器和数据库。 ? 从谷歌的机器学习代码中得知,目前需要一万亿个训练样...

3615
来自专栏AI研习社

这5种计算机视觉技术,刷新你的世界观

计算机视觉是目前深度学习领域最热门的研究领域之一。它位于许多学术科目的交汇点,如计算机科学(图形学,算法,理论,系统,建筑),数学(信息检索,机器学习),工程学...

803
来自专栏目标检测和深度学习

目标检测入门最终篇:拾遗及总结

文章结构 本篇为读者展现检测领域多样性的一个视角,跟其他任务联合,有YOLO9000、Mask R-CNN;改进损失函数,有Focal Loss;利用GAN提...

3557

扫码关注云+社区