上文介绍了机器学习是什么。让我们来简单回顾一下,其实机器学习解决的问题是:机器学习模型根据已知数据的输入与输出进行学习,发现已知数据输入与输出的规律并总结下来,进而利用总结的规律对未知数据进行预测。本文接着上文来继续介绍机器学习的基础知识,适合小白入门,大神请跳过。
数据检索和数据挖掘是一种获取数据的方式,主要是通过已有的数据集,比如说一些数据库中去获得我们想要的数据信息,更强调的是已有的数据,比如购物网站会有很多储存的用户数据进行分析。而爬虫则是倾向于从互联网上去找数据,这些数据并非是自己已经获得的。爬虫和前两者的差别在于,爬虫拿到的数据质量是比较低的,因为互联网上的数据信息可能会有一些垃圾数据、缺失关键字段等问题。
无论从任何数据集拿到的数据,都有可能不干净,比如存在一些异常字段或者缺失字段,这就需要我们进行清晰的操作,比如对异常值缺失值填充或者删掉。一定要保证在机器学习建模前给其使用干净的数据,才能最大程度的保证机器学习模型的效果和准确度。
先来解释一下特征的概念,我们日常所接触到的数据,很多都是有行有列的数据,那么我们称一行为一个样本,一列为一个特征,有几列就有几个特征。机器学习模型的建立在经历之前的数据清洗后已经有了相对干净的数据,但这并不意味着这样的数据适合我们的模型,比如有时候可能列数存在不够的情况或者某一列不需要,就可以增加或者删除某列,这就是特征工程的一种形式,对特征进行增删改。这主要还是与机器学习的算法息息相关。
目前已存的机器学习算法很多,但我们要选择最合适的,最能够找到我们数据的输入和输出之间的规律的算法作为我们的模型。
确定了算法后,便可以用我们的数据进行训练,在这期间需要不断调整算法模型的参数以保证其适合我们的数据,最大程度发现数据输入和输出之间的规律。
我们选定了一些算法模型来训练我们的数据,自然要选出那个模型是最适合的,这就需要对机器学习的模型进行评估,这也是在之后的一项重点。
通过评估确定了合适的模型,便可以用已存数据中为训练过的来对模型进行测试,每个样本都会有预测输出,来比较预测输出和真实输出之间的关系,这就是测试结果。测试结果如果不错的话便可以考虑采用。
业务运维主要是模型构建出来时候如何上线如何运用,这还不是当前的重点,之后会在项目中进行说明和讲解。
要区别以上两个场景其实很简单,比如我们拿到一组公司内部的工资数据,指标有员工的年龄学历和工作经验等指标以及对应的月薪和月薪等级,通过学习这些指标与对应的月薪的关系,来实现判断一个新员工的对应月薪,也就是比如说25岁的有两年经验的硕士,预测月薪为15000元,这样一个具体的数值,那就是回归问题。而如果是把月薪分为三个等级比如说高中低,通过输入指标来预测这个人会拿到一个高水平的还是中等水平或是低水平的工资,这就是分类问题。这本质上也就是预测出连续数据和离散数据的区别,通过输出判断即可。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。