上期回顾:
回到前面,考了95分的你。当你发现其他同学都是100分、99分的时候,肯定心灰意冷,但是,你发现通过自己的努力,也能从80多分考到95分的时候,也会重燃信心。
你在跟其他同学了解一下,发现考100分的同学,每天都花1小时来做练习题,你是不是也可以这样做呢?你尝试时候,下一次考试,你也考了100分,这样就说明每天1小时的练习是有效果的,你可以继续坚持下去。
我们做数据分析其实也是同样的过程,通过对比发现问题,找出问题的关键点,在去了解背后的原因,改进你原来的工作方法,再看改进后的效果,循环往复,不断提升。
那么,除了上次讲的横向纵向对比之外,高大上的数据挖掘算法们,跟“比”有关系吗?
万变不离其宗。
我们看常用的算法:
分类:
对于训练集而言,就是根据已知的类型,通过比较找出不同类型的特征节点。当需要对新的样本进行分类时,将样本的特征和跟原有类型特征对比,把相同(或相似)的就归入同一类。
聚类:
把一堆样本特征进行对比,特征接近的就聚为相同的一类,所谓的组间距离最大,最内距离最小。
下图是K-Means聚类的动态演示,从随机初始点开始,计算各个点与类中心点的距离,对比将距离较短的点归入一类,再重新计算实际得到的类型重新计算类的中心点,再计算距离,多次迭代之后,达到相对稳定的聚类结果。
关联:
几个样产品同时出现的概率,比其他产品同时出现的概率更高,就说明他们有关联。
回归:
先总结已有样本的特征(x)与结果(y)的对应关系,再将新的观察样本特征x’导入到模型中,计算出预测的y’结果。大家可能会说,这里并没有对比呀?但是,我们了解一下回归建模的过程就可以发现,当我们构建模型是,实际上就是要计算出每个特征对应的参数,我们通过调整参数,就可以得到不同的y值,我们将预测的y值和实际的y值对比,找到预测值与实际值差距最小的一组参数,就是我们模型的参数。也就是,回归建模的过程,就是不断的将预测值与实际值比较的过程。只不过,我们用数据的方法简化了人工一次一次对比的过程。
个人理解,各种机器学习也或多或少的是比较的过程:
有监督学习,是将预测值与实际值对比,从而使预测值越来越接近实际值的过程。
无监督学习,就是将样本进行对比,从而找出其中相似性的过程。
半监督学习,则是将部分规则特征,应用于产生更多规则的过程。
强化学习,则是根据对比目标的反馈情况,而进行模型校准的过程。
总体来说,数据分析和数据挖掘,都是通过将现有数据与相关的参照物进行对比,找出差距(差异),并不断优化的过程。
因此,从这角度来说,“比”可以说是数据分析和挖掘最核心的基础方法。
虽然,我承认在数据挖掘领域,设计精巧的数学工具,已经超出了普通“比较”范畴,比单纯的横向、纵向对比已经不在一个层面上。
但是,本文的目的是希望大家再今后的工作和学习中,能善用比较的方法,通过比较,从数据中发现问题,挖掘价值。
大家如果对本文或对数据分析有什么观点和看法,都欢迎在下面进行留言交流。
--全文完--
悦读·数享
酸梅汤的数据、读书和音乐
公众号ID:ydshuxiang
关注
领取专属 10元无门槛券
私享最新 技术干货