一个字，搞定数据分析！

文章来源：企鹅号 - 悦读数享

上期回顾：

回到前面，考了95分的你。当你发现其他同学都是100分、99分的时候，肯定心灰意冷，但是，你发现通过自己的努力，也能从80多分考到95分的时候，也会重燃信心。

你在跟其他同学了解一下，发现考100分的同学，每天都花1小时来做练习题，你是不是也可以这样做呢？你尝试时候，下一次考试，你也考了100分，这样就说明每天1小时的练习是有效果的，你可以继续坚持下去。

我们做数据分析其实也是同样的过程，通过对比发现问题，找出问题的关键点，在去了解背后的原因，改进你原来的工作方法，再看改进后的效果，循环往复，不断提升。

那么，除了上次讲的横向纵向对比之外，高大上的数据挖掘算法们，跟“比”有关系吗？

万变不离其宗。

我们看常用的算法：

分类：

对于训练集而言，就是根据已知的类型，通过比较找出不同类型的特征节点。当需要对新的样本进行分类时，将样本的特征和跟原有类型特征对比，把相同（或相似）的就归入同一类。

聚类：

把一堆样本特征进行对比，特征接近的就聚为相同的一类，所谓的组间距离最大，最内距离最小。

下图是K-Means聚类的动态演示，从随机初始点开始，计算各个点与类中心点的距离，对比将距离较短的点归入一类，再重新计算实际得到的类型重新计算类的中心点，再计算距离，多次迭代之后，达到相对稳定的聚类结果。

关联：

几个样产品同时出现的概率，比其他产品同时出现的概率更高，就说明他们有关联。

回归：

先总结已有样本的特征（x）与结果（y）的对应关系，再将新的观察样本特征x’导入到模型中，计算出预测的y’结果。大家可能会说，这里并没有对比呀？但是，我们了解一下回归建模的过程就可以发现，当我们构建模型是，实际上就是要计算出每个特征对应的参数，我们通过调整参数，就可以得到不同的y值，我们将预测的y值和实际的y值对比，找到预测值与实际值差距最小的一组参数，就是我们模型的参数。也就是，回归建模的过程，就是不断的将预测值与实际值比较的过程。只不过，我们用数据的方法简化了人工一次一次对比的过程。

个人理解，各种机器学习也或多或少的是比较的过程：

有监督学习，是将预测值与实际值对比，从而使预测值越来越接近实际值的过程。

无监督学习，就是将样本进行对比，从而找出其中相似性的过程。

半监督学习，则是将部分规则特征，应用于产生更多规则的过程。

强化学习，则是根据对比目标的反馈情况，而进行模型校准的过程。

总体来说，数据分析和数据挖掘，都是通过将现有数据与相关的参照物进行对比，找出差距（差异），并不断优化的过程。

因此，从这角度来说，“比”可以说是数据分析和挖掘最核心的基础方法。

虽然，我承认在数据挖掘领域，设计精巧的数学工具，已经超出了普通“比较”范畴，比单纯的横向、纵向对比已经不在一个层面上。

但是，本文的目的是希望大家再今后的工作和学习中，能善用比较的方法，通过比较，从数据中发现问题，挖掘价值。

大家如果对本文或对数据分析有什么观点和看法，都欢迎在下面进行留言交流。

--全文完--

悦读·数享

酸梅汤的数据、读书和音乐

公众号ID：ydshuxiang

关注

发表于: 2018-04-202018-04-20 18:06:39
原文链接：http://kuaibao.qq.com/s/20180420G1E76X00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

一个字，搞定数据分析！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐