机器学习流程

本文介绍机器学习的标准流程,整个机器学习步骤与数据挖掘流程前期是有部分重合的,首先数据获取,数据清洗,设定训练数据集和测试数据集合,简要过程如下:

完整机器学习步骤可以分为七部曲:

第一步:数据获取

从已有日志,数据库或者文件中收集可用历史数据,这一步非常重要,收取数据的全面性和正确性直接影响后续每一步的结果。

第二步:数据准备

将收集好的数据进行清洗,经过预处理后,进行打标签等等操作,并将收集好的数据分为训练集和测试集备用。

第三步:模型选择

根据需求目的,进行现有模型算法选择,确定是分类还是回归,选择适应于现有样本的模型算法。

第四步:学习训练

利用训练样本进行模型学习训练,不断优化模型算法参数:

第五步:模型评估

上一步完成后,得到算法的精准率和召回率,然后尽心初步的算法模型评估,将测试集应用到模型中,最终得到测试集上算法模型表现,判断是否达标。

第六步:参数优化

评估完成后,通常需要不断优化模型的表现,那么需要对现有算法模型的参数甚至超参数进行调整,然后重复训练模型并验证评估,不断提高模型的整体表现。

第七步:应用

模型优化直至可用后,将最终模型投入生产环境,进行实际项目的应用,并不断验证模型的可用性,一旦发生模型误差过大,需要及时调整模型参数,不断调优,直至恢复模型的良好表现。

实际工作中,数据的获取和数据准备统称为特征工程,此过程是极其重要和复杂的,通常占用整个项目80%以上的时间,特征工程的方法也非常多,日后会进行详细的介绍。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180322G0FVNL00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券