学习
实践
活动
专区
工具
TVP
写文章

机器是怎样学习的?机器学习的方法与步骤

内容摘要

机器学习以数据为基础,通过训练构建出算法模型,然后就能够基于数据模型进行预测,其学习过程通常可以划分为:数据采集、数据预处理、特征工程、模型选择(模型训练和预测)、模型评价(效果评估)五个阶段。

文章编号:AI-0006-V1.1

所属类别:人工智能

文章正文

我们可以从结构组合和实施流程两个角度,认识机器学习的方法,本文侧重从机器学习实施流程的角度,将其分为五个步骤,我们称之为五步法。

从结构组合的角度看,机器学习包括:数据、算法、模型3个要素

数据是基础,算法是动力,模型是目标。

从实施流程的角度看,机器学习分为:数据采集、数据预处理、特征工程、模型选择(模型训练和预测)、模型评价(效果评估)五个步骤。如下图所示:

第一步:数据采集

数据采集的源头可能来自于企业的内部IT系统/平台、采集设备、外部互联网等。

例如, CRM系统的客户、产品、订单等数据,通信网关GGSN、SGSN等的用户上网记录数据,或者互联网电商平台的商户信息、客户评价等。

第二步&第三步:数据预处理&特征工程

这个阶段主要完成学习前的准备工作。

样本数据中的标签数据是在原始数据中预先设置好的,比如预测结果为垃圾邮件和正常邮件,那么类别标签值可以设置为1和0。

预处理包括:特征提取与特征缩放、特征选择、降维、抽样等工作。特征类似于数据表中的字段,首先需要从原始数据中提出和机器学习目标相关的特征,为了提高计算性能、节省空间占用,有时则需要做降维处理。

数据集也会分为训练数据集和测试数据集,借助交叉验证手段和性能度量指标,比如正确率、精准率、召回率、F1分数等,确定模型的好坏优劣。

第四步:模型选择(数据训练和预测)

数据集准备完毕后,需要进入机器学习阶段。

学习阶段包括模型选择、交叉验证、性能度量、超参调优

模型选择对应算法选择,逻辑回归、决策树、朴素贝叶斯、支持向量机等算法的特点和适用场景是不同的,我们需要根据业务特点和需求作出选择。

数据集的分布对于机器学习效果影响也很大,最好的情况是同样特征的样本数据是分散排布的。

以从仓库中挑选出好的或者腐败的、坏的玉米粒这样的场景为例,如果好的玉米粒全部放到训练数据集,坏的玉米粒全部放到测试数据集,那么这样的数据就没有代表性,因此构建的模型也没有通用性,无法用于预测。

通常需要对样本数据按照不同的比例分割,多次切分打散后,形成类别分布合理的训练数据集和样本数据集,这样训练出的模型才会有实用价值。

每个算法模型缺省都有输入参数,在机器学习领域叫做超级参数。

这些参数应该根据实际情况进行调整和优化。这个比较好理解,如果我们把算法比作二元一次方程,自变量有两个,那么自变量对应的常量参数就相当于算法模型超级参数,对其进行调优才能让模型有更强的预测能力。

如果你将预测模型想象成直角坐标系上的一条斜线,自变量对应的常量决定了直线的斜度,而斜度决定了分类(预测)的能力。

第五步:模型评估(效果评估)

最终模型其实是在多次的验证和评估后形成的,包括:数据集分割调整、交叉验证、超参调优、模型更换等手段,最后采用性能度量的量化手段,决定最终的算法模型。

算法模型确定后,这是就可以输入新数据执行预测了,输出的标签数据就是基于模型预测后的结果。

这个也很好理解,模型就像一个多元方程式,自变量前面的常量是通过反复训练确定的,多个自变量对应着新的输入数据,多元方程式计算后输出结果值,结果值对应模型预测后的标签值。

以垃圾邮件识别为例,预测结果是1代表是垃圾邮件,为0为正常邮件。

以上是《人工智能100讲》中机器学习的分类和机器学习中有监督学习的五个步骤,后面我们会以具体实例和代码的形式进行深入介绍。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210307A00XGI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券