专栏首页我的技术笔记数据、学习和模型

数据、学习和模型

机器学习中有几个关键的概念,这些概念为理解机器学习这个领域奠定了基础。

你将会在本文中学习到这些用于描述数据和数据集的术语条目(标准条目)。

除此之外,你也会学到从数据中引申出来的学习和建模的概念和术语,在机器学习的旅行中,这些内容将会给你带来极有价值的直观认知。

数据

机器学习方法是从既有案例中学习到的,所以透彻理解输入数据和熟练掌握用于描述数据的术语是非常重要的事情。在本节中,我们会在谈论数据的时候学习机器学习中使用的术语。

谈到数据,我通常会想到由行和列组成的二维表。例如数据库表和Excel电子表格。这是一种传统的数据结构,在机器学习领域中是很常见的。除此之外的数据有图像、视频和文本,至于那些非结构化数据则不在考虑范围内。

显示一个实例、特性、测试数据集合训练数据集的表格

实例: 单行数据被称为实例,是数据域的一个观测样本。

特征: 单列数据被称为特征,是观测样本的组成部分,也被称为数据实例的属性,一些特征可能是模型(预测变量)的输入,其他的特征可能是输入或者预测的特征。

数据类型: 特征具有一个数据类型,它们可能是实数或者整数值,也有可能是分类变量或者定序变量。你可以用字符串,日期,时间和更复杂的数据类型,但是在使用传统的机器学习方法时,通常会将这些数据类型缩减成实数类型或者分类变量。

数据集: 数据集是多个实例的集合,在使用机器学习方法的时候,为了完成特定的目的,我们通常会需要一些的数据集。

训练数据集: 我们提供给机器学习算法,用来训练模型的数据集。

测试数据集: 用来校验模型准确性的数据集,但是不可用于训练模型。我们也可称之为校验数据集。

我们可能有必要收集数据实例来构成我们的数据集,或者我们可能会得到一个有限的数据集,然后有必要将它划子数据集。

学习

机器学习本质上就是算法的自动学习。

我们会在本节中思考一些机器学习的高级概念。

归纳法:机器学习算法通过模拟归纳或者归纳学习的过程来完成学习。归纳是一种推理过程,它由特定的信息(训练数据)归纳出泛化结果(模型)。

泛化:模型由机器学习算法提供,它需要根据不同于训练数据集的数据实例来做出预测或者判断,所以说泛化是有必要的

过度学习:一个模型过于频繁地学习训练数据集而不进行归纳,就被称之为过度学习。会导致的结果就是除了训练数据集之外,其他数据表现的性能都很差。这也被称之为“过拟合”。

学习不足:由于学习过程被提前终止,模型没有从数据库中学习到足够的数据实例结构,这就叫做“学习不足”。导致模型的泛化能力很好,但是在所有数据集上表现的性能不佳,包括训练数据集。这也被称为“欠拟合”。

线上学习:线上学习是指在数据域可用的时候,通过方法从数据域上更新数据实例。线上学习需要健壮的方法来处理数据,这些数据虽然嘈杂但是可以生成与当前域的状态相一致的模型。

线下学习:线下学习是指在预先在准备好的数据中创建一个方法,然后在未观察的数据上进行处理。因为训练数据的参数是已知的,所以训练过程是可控的,并且可以很好地进行调整。模型在训练完成后不会更新,如果数据域的状态发生变化,模型性能可能会降低。

有监督学习:这是一个在需要预测的问题上进行归纳的学习过程。“学习过程”将模型的预测结果与已知结果进行比较,然后在模型中进行修正。

无监督学习:这是一个在不需要进行预测的情况下对数据结构进行归纳的学习过程,识别并利用学习对象中天然的特性结构,并将这些特性用于数据实例的相互关联。

我在之前的机器学习算法文章中已经介绍过了有监督学习和无监督学习。如果根据它们的行为对算法进行分类,那这些术语会很有用。

模型

机器学习过程所创造的人工智能可以被认定为一个程序。

模型选择:我们可以将模型的训练和配置看作是一个模型选择的过程,可以选择使用或者修改每次迭代产生的新模型。即便是机器学习算法的选择同样可以看作是模型选择的一部分,对于已知问题的所有可能的模型,我们可以由给定的算法和基于给定数据集的算法配置最终确定要选择的模型。

归纳偏差:偏差是施加于模型之上的限制。任何模型都具有偏差,它们会将错误引入模型。并且根据定义,所有模型都具有误差(这是从观察中归纳出来的)。模型的泛化能力决定了引入偏差的大小,而模型的泛化能力则受模型配置和模型的生成算法选择的影响。一个机器学习方法可以创建一个有或高或低偏差的模型,并借此模型来降低高度偏倚模型的偏差。

模型方差:方差表示出了模型对训练数据的敏感度。当在训练数据集的基础上创建模型时,机器学习方法可能会有或高或低的方差。降低模型方差的一种策略是这样的,改变数据集的初始条件并多次运行,然后取平均值作为模型的精度值。

偏差-方差权衡:模型的选择可以看作是偏差和方差彼此妥协。一个偏差低的模型会有一个高方差处理,并且需要经过很长时间的数据训练才能得到一个可用的模型。而偏差高的模型会有一个低方差处理,并且会快速地进行数据训练,但还是会受到微小且极其有限的影响。

资源

如果你想深入了解的话,可用参考下面的资源。

本文的版权归 白加黑大人 所有,如需转载请联系作者。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 初识以太坊

    以太坊(Ethereum)已经成功跻身为密码货币资本市场的第二名,其地位仅次于比特币。在短时间内,以太坊迅速演化成一个'世界计算机',它凭借全世界的数千个节点(...

    白加黑大人
  • 在Ubuntu 18.04上安装Chef服务器工作站

    Chef是一个“能够实现将基础架构模型转换为代码形式”的自动化平台,它允许用户跨越数个服务器(或者数个节点)来管理和部署资源。Chef自动化平台还允许用户创建及...

    白加黑大人
  • 面向开发者的Cloud Foundry

    Cloud Foundry是一个流行的开源PaaS(Platform as a Service 平台即服务)云平台。Cloud Foundry可以用在你自己部...

    白加黑大人
  • 应用 AI 之前,你必须了解的 10 项准备工作

    ? 这篇文章对你的人工智能和机器学习项目进行分解,讨论其各个部分所带来的影响,从而帮助你确定公司是否真正准备利用机器学习、深度学习或人工智能。 不是每一个问题...

    CDA数据分析师
  • 什么是机器学习?有哪些应用?终于有人讲明白了

    导读:人工智能的快速发展,带动了相关技术的繁荣。近些年,国内外的科技公司对机器学习人才都有大量需求。怎样入行机器学习?本文带你从0开始学起。

    华章科技
  • 数据科学面临的共同挑战

    弱监督和数据编程可以用来训练模型,不必使用大量手工标记的训练数据。 需要用多少数据来训练模型?模型推导的响应时间应该是多少?重新训练模型和更新数据集的频率应该是...

    小莹莹
  • 纳米神经网络 NanoNet:数据有限,照样玩转深度学习

    【新智元导读】解决深度学习问题时,使用迁移学习能够很好地减少所需的训练数据量。但是,使用这种方法需要更多的专业知识,比如判断如何调试问题、将哪一层的输出作为输入...

    新智元
  • 高级数据科学家阿萨姆:如何应对机器学习过程中的多项选择问题?| 分享总结

    AI 研习社按:随着硬件算力的上升、数据量的加大以及各种新算法的浮现,机器学习也变得一天比一天火热。不夸张的说,这是机器学习的时代。然而,机器学习虽然能够给出惊...

    AI研习社
  • 持续智能-机器学习项目的11类问题及解决之道

    当你刚从一个机器学习网站上学习完理论知识,然后满怀信心,信誓旦旦,准备大刀阔斧,按照教程编写一个狂拽酷炫的算法代码,训练一个机器学习模型,然后觉得自己棒棒哒准备...

    凯哥
  • 谁是世界上最美的人?看神经网络为每人按颜值魅力打分

    「魔镜魔镜告诉我,谁是世界上最美的女人?」这句伴随童年的话也有现实版哦~神经网络可以预测人脸颜值,这方面也出现了不少研究。今年年初华南理工大学的研究者发布论文,...

    机器人网

扫码关注云+社区

领取腾讯云代金券