【零一】#操作教程贴#从0开始,教你如何做数据分析#中阶#第十篇

大家好,我是零一。这一篇给大家介绍聚类/分类。

我的公众微信号是start_data,欢迎大家关注。

我们先讲一讲聚类。

上一篇的探索关系,很多朋友反映说非常有趣,这一篇,聚类分析也是相当有趣的。

聚类分析简称聚类,俗话说物以类聚,人以群分,聚类就是划分子类的过程。算法上面多用k-means和k-medoids,当然,大家可以跳过这些算法的过程,用程序来完成即可。

说简单一点,通过聚类,可以将我们的数据进行分类,并且描述每个类的特征。

聚类应用非常广泛,包括在电商领域的应用也是多不胜数。比如

(1)对客户数据进行聚类分析得到多个客户群组,并且得到各个群组的特征,这可以帮助我们发现客户的共性和差异性;

(2)竞争对手数据进行聚类分析得到多个对手群组和各自的特征,这一样可以让我们找到对手们的共性和差异性;

(3)对行业数据进行聚类分析得到多个行业群组和各自的特征,这个可以来发现不同行业之间的共性和差异性

(4)对销售数据进行聚类分析(比如以其中的地域聚类),可以告诉我们那些地域之间的共性和差异性

不难发现,我举的4个例子都是在发现共性和差异性。对的!我们了解了这些信息,可以指导我们的运营决策,对不同群组制定不同的策略。

下图是对地域数据做的聚类分析,得到的一个谱系图,我们从上往下看,首先是分成两大类

广东,天津,浙江,北京和上海这五个省市为一类,其余的多省为一类。

再往下看又分成了四大类,西藏作为单独一个分类,广东也作为单独的一个分类,天津和浙江为一类,北京和上海为一类。

从上往下,越分越细。红色的边框把多个省市划分成5个分类。一般没必要分得太细,这个数据目测是分成了20个细分的分类,除非是确实是需要细分到很细的时候,才需要看最低层的分类。

当我们知道天津和浙江聚为一类的时候,他们必然存在共性,才会聚在一起。当我们知道天津-浙江类和北京-上海类,作为两个不同的群组聚集,它们之间肯定是存在某种差异。

=======================================

下面,我们用上篇共享的数据,跟大家一起探讨聚类,和寻找他们的共性和差异性。

先处理下缺失值,选择清除数据里面的离群值

中间要选择需要处理的字段,选择好后,进入以下界面,也一样下一步即可

选择删除包含离群点的行(因为这里数据量不少,可以删了)

一般情况下,我们都避免直接修改源数据,需要新建一个变量或者空间或者工作表来存放处理过后的数据。这里选择复制到新的工作表就可以了。

数据处理好后,就可以进行聚类分析了。在数据挖掘套件里面直接选择聚类分析即可。

选择需要的数据进入模型里面

点击参数,然后就会看到下图这个对话框,可以手动输入数字来更改聚类算法,可以看到微软提供的聚类算法有4种,分别是可变的EM,固定的EM,可变的K-means跟固定K-means(EM是最大期望算法,K-means是K平均值算法,可变的是可以伸缩调整的,固定的就是固定不可调整的)

这里我输入4,选择固定的K-means算法

下图是选择测试集的比例,默认是30%。【测试集】是数据挖掘特有的名词,数据挖掘里头将数据集一分为二,大头的部分用来训练建立模型,称之为【训练集】,小的部分就用来测试模型,称之为【测试集】。这是数据挖掘和统计学最大的差异之一。统计学是通过统计方法来验证模型是否可靠,而数据挖掘技术是利用测试集来验证模型的可靠性。一般用于预测模型,聚类分析其实可以不用测试集,可以把数值改为0。但我就不改了。就用随机抽取出来的70%的数据来建立模型。

完成后,就会进入模型浏览界面,我们看到共有划分了7个,这有点儿多,我们可以在选择输入列的时候指定分类的数量,刚才我们是选了自动检测来着。

线粗代表两个分类之间的关系的强度,越粗关系越强。分类的颜色代表密度,颜色越是深蓝代表这个分类的数据个数越多。那非常明显,系统把大部分的数据归入分类1里头了。

下面是分类的剖面图,每个分类对应的指标范围在这里一览无遗。

简单解读一下上面这个分类情况

【分类1】包含2768个数据,最鲜明的是30天成交量偏大,价格偏低的这一个群组,是中低端爆款类

【分类2】只有246个数据,这个群组比较失败,发货分丶服务分丶好评率都偏低,销量偏低,价格偏高一点,典型就是卖货不卖服务类

【分类3】只有187个,集中在广东深圳,DSR很好,评价很好,价格很高,但退款率也很高,应该是高端市场的卖家,标准的价格高,服务好,但不知为何退款率也高,可能是买家收到了,觉得不划算吧,这一类是高端类,但产品或品牌的价值感可能没有做好。

【分类4】只有65个,也是DSR超好,价格中档,产品的价值完美体现,退款率不错,同样集中在广东深圳,是中档性价比类。

【分类5】只有61个,这个群组很惨,集中在浙江金华(估计是义乌),价格超低,DSR超烂,好评率很惨,是低端烂货类

【分类6】和【分类7】规模很小,就不解读了。以上解读仅供参考。一般分个4-5个群组就差不多了,如果数据量确实大,可以考虑分细一些。

每一个分类都可以单独提取出这个分类下的数据的。

下图是分类的一些特征,每个特征的概率情况

下图是分类间的差异性,通过对比可以发现,分类1多是天猫,非分类1的多是C店。

下面我着重看下分类3和分类4的区别,因为分类3败在退款率上面,而分类四就解决了这个问题。

我大致上看出来了,分类3的服务(DSR,退款速度)没有分类4的做得好,但分类4的价格又要比分类3低,并且包邮。那作为消费者,肯定选个价格中肯,服务又好的店家。而且分类4的销量还不低,有少部分是心店,我对心店的印象就是心店的服务一般要比大店的要好。

以上就是对这儿聚类分析结果的简单解读,具体的,亲们实操一下吧。

=============================================

下面说说分类。

聚类和分类,从语义来讲,看似很像,但有一点重要的差异。分类是指定了我们要分析的列(维度),然后通过决策树算法(默认方法是用贝叶斯分类器),来告诉我们,影响这个目标的维度有哪些。下面我们看下过程。

选择要分析的列,我这里选择的是30天销量,看下会影响销量的是什么因子。

下图是结果,告诉我们,收藏很重要!收藏跟销量有很强的关系。同样第一张图是决策树,一样有分组的作用。

决策树一般用来分析影响客户下单或者流失的因子有哪些。有兴趣的朋友可以自己倒腾一下。试下会有哪些意外的收获。

===========================================

下面,告诉大家测试集的使用方法。

选择准确性图表

选择模型,一般用于预测模型,刚才的决策树是属于预测模型,而聚类就不属于,因此聚类的模型不可用于准确性图表。

选择要预测的区间,我选择的是30天成交大于122的情况

我们之前保留的测试集,就在这里出现了,默认会选择测试集来验证准确性。

在上图点了完成后,就会得到这样的一个结果(部分截图),会有一个指标, “分类 30天成交”模型提升144.11%,这个数值越大代表模型的准确性越高。但我一般看下面的ROC图。

蓝色代表没有模型的结果,红色代表理想的结果。而绿色代表我们测试得到的结果。

绿色的线越接近红色的就代表越好,一般情况下,只要不要太接近蓝色的线(或者低于蓝色的线),就好了。如果接近蓝色的线或者在蓝色线下面,那就不如不用模型了,此时这个模型就没什么存在的意义,如果硬要用那就只是为了做模型玩玩而已了。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2014-01-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

如何从零训练神经网络玩游戏?这里有一段详细的解读视频

Youtube 上的知名游戏博主 SethBling训练了一个叫 MariFlow 的神经网络来玩 Mario Kart 游戏。看懂他怎么做的,你也能举一反三。...

38370
来自专栏AI科技评论

学界 | 别再抄袭论文图片了,机器学习算法能自动检测出来

AI 科技评论按:近期来自纽约雪城大学的 Daniel Acuna 等人在 bioRxiv 上发表了一篇文章,作者在文章提出了一种机器学习算法,该算法能够自动进...

42950
来自专栏大数据文摘

忽悠神经网络指南:教你如何把深度学习模型骗得七荤八素

27450
来自专栏大数据文摘

是猫还是屏幕?OpenAI实力怼“神经网络多角度图像识别难被欺骗”说法

14320
来自专栏机器之心

深度 | 可视化分析ICLR 2018:你想要的接收论文情况都在这

29260
来自专栏新智元

深度 | ImageNet 历届冠军架构最新评析:哪个深度学习网络最适合你

【新智元导读】计算机图像计算水平稳步的增长,但各大厉害的模型尚未得到合理应用。在这篇 ICLR 2017 提交论文《深度神经网络模型分析在实践中的应用》中,作者...

38260
来自专栏数据科学与人工智能

【教程】机器学习Python教程:2机器学习术语

这意味着分类器在42个案例中正确地预测了为男性,并错误地预测了8个男性案例为女性。它正确地预测了32例女性,18例被错误地预测为男性而不是女性。

11420
来自专栏专知

【干货】基于TensorFlow卷积神经网络的短期股票预测

【导读】近期,意大利公数据科学家Mattia Brusamento撰写了基于Tensorflow卷积网络的 短期股票预测教程,在这篇博文中,你将会看到使用卷积...

68370
来自专栏积累沉淀

数据挖掘算法之深入朴素贝叶斯分类

写在前面的话:   我现在大四,毕业设计是做一个基于大数据的用户画像研究分析。所以开始学习数据挖掘的相关技术。这是我学习的一个新技术领域,学习难度比我以往学过的...

36480
来自专栏ATYUN订阅号

腾讯AI Lab开源了覆盖性广、准确性高的汉语词汇语料库

腾讯开源了一个语料库,为超过800万个汉语词汇提供了200维向量表征,即嵌入,这些词汇是在大规模高质量数据上预先训练的。这些向量捕获中文单词和短语的语义含义,可...

17650

扫码关注云+社区

领取腾讯云代金券