机器学习理解篇之七-监督学习应用的一个简单例子

文章来源：企鹅号 - 言不尽EndlessWords

监督学习是一种在样本知识指导下通过学习构建一个分类器（或预测模型）的方法。基于监督学习的分类分析通常分为两步：第一步是学习和训练的过程，要根据提供的带有标签的样本数据进行学习（这种标签内涵着明确的业务意义，也即常说的知识。有关样本数据的选择是另外一个非常重要的话题，暂不在此论述），构建分类器或预测模型。第二步是利用这个分类器或预测模型对其它数据进行分类和预测。

下面仍然以前面使用过的模型数据进行说明。在“机器学习理解篇之五”中，我们构建了一个原始数据集A（没有标记），通过对数据集A的聚类分析，将数据集A标记为三类，得到的聚类结果为数据集B。我们将数据集B中的三类数据分别设置为“红”、“绿”、“蓝”（也可以赋予其他含义），这里不同的颜色代表不同的意义。为了说明分类的工作原理，我们将实现思路归纳为二步：首先在数据集B中取出部分数据作为样本数据用于学习，用分类算法进行学习构建分类器，然后用该分类器对原始数据集A进行分类，检验数据集A的分类效果。

下图显示了从数据集B中抽取1/4的数据用于学习的样本数据。这里采用的监督

学习方法为贝叶斯算法。下图为利用学习构建的分类器对原始数据集A进行分类

的结果（数据集C）。可以看出,通过对样本数据的学习,可以很好的对原始数据进行分类了。当然，如果你将数据集C和数据集B进行队对比，可以发现在蓝色的分类数据集中仍有两个数据点（红色）没有得到正确的分类。其原因可能是多方面的，一方面可能是样本数据，另一方面可能是方法本身可能在某个方面的局限性。

下图是我在96年发表的一个研究成果，即通过样本学习识别某一种指定的波

形。其中左图为原始数据。中间图件中的红色箭头指示了选择的样本数据，红色矩形框中指示了要识别的波形（主要是时序数据中波峰对应的时间），右图显示了应用神经网络经学习样本后识别的结果。从中可见，指定的波形（波峰时间）得到有效的识别，取得了预期的效果。

基于“机器学习理解篇之五”和本篇的实例，可以比较容易的理解非监督学习（聚类）、监督学习（分类）的基本原理。这里再简单的小结一下，非监督学习是一个自学过程，其结果是实现聚类，其聚类的特点只是给出了标签，而不具具体意义；监督学习是一个在指导环境下的学习过程，其结果是构建分类器（实现认知），用于对其他数据（或物体）的识别（分类）。与“机器学习理解篇之六”所述类似，在实际应用中面临的挑战也是多样的。

（茶歇杂谈，见仁见智）

发表于: 2018-08-172018-08-17 15:42:33
原文链接：https://kuaibao.qq.com/s/20180817G12WW800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习理解篇之七-监督学习应用的一个简单例子

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐