【零一】#操作教程贴#从0开始,教你如何做数据分析#初阶#第三篇

大家好,我是零一。我的公众微信号是start_data,欢迎大家关注。今天接着第一篇的内容,我们继续利用excel来做分析。

首先,回应派友的疑问。

我这系列文章,是从0开始的,可能读者的基础并不是太好,我是这么安排的,先学会基本的操作,会操作了后,再回过来学一些分析思路和方法。自己做过之后,再学心法,可能会有更大的收获。

说回主题,上一篇中,我们看出了走势图,也看到了占比图。这两个必须同时看,才能清楚的,因为你单看走势图,是看不出占比的。单看占比图也会看不粗走势。因此,这两个图,是结合一起,才能读出相对完整的信息。

根据我们的目的,了解淘宝美容护肤行业的市场情况

我们已经拿到了走势和占比两个信息,那么接着还能了解些什么呢?

可能每个人的问题都不一样,我引出一个问题,每个子行业的竞争程度怎么样呢?

那么,我们就要思考,这个问题要转化成什么维度呢?我们手里的数据能否来回答这个问题呢?

我们先观察看一下源数据(源数据在第一篇的共享里面,第一篇的地址在文章底部)

成交量,统计的是成交的件数。

销售额,统计的是成交的件数+一口价,这里误差太大,不分析这个数据。

高质宝贝数,统计的是有一定销量的宝贝数。

其他维度,跟我们的问题关系不大,这里排除了销售额,那么,就剩下成交量和高质宝贝数。

成交量/高质宝贝数

就会得到平均一个高质宝贝数分配到的成交量。这个指标,有人称之为分配量,有人称之为平均占有率,也有人称之为均量。那么,我下面将这个指标命名为均量。

第一步,插入数据透视表

第二步,设置字段

然后,增加一个计算字段,在数据透视表工具——选项——域丶项目和集——计算字段

公式如下图所示

确定后,会自动添加,大家可以核对一下字段设置

然后,我们看到数据透视表,但是面对这个表格,零一点情绪都木有。

看到表格,而且密密麻麻的这种,脑袋就要开始想【数据展现】。用什么方式来展现这些数据?

这里解释一下,【时间序列】简单理解就是以时间为展现维度的数据,那么这里刚好就是以时间作为维度。那么,我们看到是垂直柱和线图。那就用这两种结合,来做展现。

结果如下,天哪!巨坑!这,,,这要比表格还要难看。

这里一团糟,是因为维度太多了,维度太多了,就要思考【降维】,减少这个图表里面的维度即可。

下面仔细看,有个倒三角。

看不到??回头认真看,反反复复地看。

点下倒三角,跟我下图一样,筛选一下即可。

结果如下。认真看,想想为什么最底下有条水平线?

最底下那条就是均量了。因为数值太小,所以,好端端的一条曲线就变成了水平线。鼠标点一下。

最下面的直线就会被选中,右击一下,在弹出来的菜单选择,设置数据系列格式。

然后,选择次坐标轴,点右下角的关闭

这就看得清楚了,蓝色是成交量,对应左边的纵坐标轴。红色的是均量,对应的是右边的纵坐标轴。

发现9月到年前是行业旺季哦!今年的均量在飙升的感觉。均量越高,代表每个宝贝分配到的成交量就越多。

那么,问题来了,均量高是好事情吗?

答案是未必,首先要去淘宝搜索判断,目测销量第一页的分布情况,就可以知道。如果要用指标,可以用【极差】来判断。这里其实目测就好了。如果销量都在两三个宝贝,那么,这个事儿对于你来讲就不好了。

再接着,如果发现分布相对均匀,那么是好事吗?

还是未必,答案完全看你自己了,如果是小卖家,那是好事儿啊,竞争不会太大,大家都有机会得到成交的机会。

但是,如果你是有实力的卖家,这就不是件好事儿,蛋糕要大家分呀!这可是蛋疼的事儿。

好了,解释就到这里。我们继续。开始说了要用两种图来展现。现在只完成了第一步。接着,我们在这个表里面加入柱形。

点一下红色线性,右击,在菜单中选择更改系列图表类型

按确定自己看结果吧

这里又出现个问题了。这里只能看一个行业啊!能不能看所有的行业,或者每个行业都单独看一下?

答案,是都可以!我们先实现变着行业来看。

插入切片器,如果找不到地方的,版本不同,自己找。或者就是图表没有在活动状态。

选好后,按确定,就可以看到切片器,自己点点看看吧。。

那么,接着,将均量全部拿出来看趋势。重新插入个数据透视表。过程自己思考。不演示了。相信消化了第一篇的童鞋都能自己做的了。

好,到这里来,基本看得差不多了。但是还有,我还没有说完哦。

因为考虑到进程问题,这一篇内容要稍微多一些。

上面均量的走势,我们看得出来,胸部护理的均值最高,但是越下面的各个子行业错综复杂,我们怎么客观地来判断呢?

这里教大家两个指标【波动系数】和【极差】,这个后面的文章可能要用到,以后讲到,就不解释了!对他们的数学/统计意义感兴趣的童鞋自己百度吧,波动系数,统计学里面叫变异系数。

统计学意义我就不说了,我先介绍一下,这两个指标,不是什么时候都要用,就是用肉眼,看不出来,拿不准的时候,希望更加科学地来判断,就需要动用他们了。

【波动系数】=【标准差】/【平均值】

【极差】=【最大值】-【最小值】

我从数据透视表复制出部分数据,如下。相信消化了第一篇的童鞋都能自己做的了。

先算下【标准差】excel里面函数是:STDEV.S

【极差】

【均值】大家都知道的,但是还是贴出来吧。

最后,算波动系数,自己算!如果实在不会的,等待第四篇。

那么,这里,T区护理的波动系数是0.43,唇部护理是0.39。极差在上面看得到。这个怎么应用呢?

要记住这个应用的前提,肉眼看不出来,不明显,错综复杂的走势。那么,就用他了,如果摆在你面前的能用肉眼一眼看穿的,请绕道。

如果是小卖家,选择波动系数越大的,可能就越好。因为市场波动大,机会就大,前提一样要先验证一下是否是个别商家人为操作起来的市场。

如果是中级卖家,具体也要看,如果资源好,建议选择波动系数小的,因为这个市场做起来后,就相对稳定,平时不用太操心呗,控制好供应链,其他就没什么大事儿了。

【极差】作为辅助的维度,不一定要,但是他跟【波动系数】一起看得更全面。

【波动系数】有个优点也是缺点跟数据本身的大小没关系的。百万级别的源数据跟百位级的源数据,算出来的波动系数可能是一样的,从优点来讲,他可以跨维度,跨数据级对比。从缺点来讲,就是看不全,就可能出现不同级别的数据之间,他们的波动系数相等。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2013-12-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Crossin的编程教室

一行代码扫出“敬业福”

好吧,我承认有那么一点标题党。不过说起标题党这事儿,咱先来看看支付BAO,最近几天搞得全国人民都不安心工作的“集五福”: ? 好(shua)好(hou)的“集五...

42280
来自专栏思影科技

腹内侧前额叶与脑岛皮层变化对儿童到青少年元记忆发育的影响

元记忆监控与内生回忆准确性的能力在儿童发育过程大大改善,但潜在的神经变化和对智力发育的影响在很大程度上是未知的。来自加州大学戴维斯分校心智与大脑中心(Cente...

47190
来自专栏ATYUN订阅号

斯坦福大学开发人造神经系统,为假肢或机器人提供触觉和感知能力

斯坦福大学和首尔国立大学的研究人员开发了一种人造感觉神经系统,可以激活蟑螂的抽搐反射,并使其识别盲文中的字母。

9540
来自专栏机器学习之旅

动态最优化经典面试题

最近看到了一条史前的算法面试题,觉得挺有意思的,虽然网上已经有了很多完善的答案,但是我还是想自己整理一遍,强化印象,同时也和大家分享一下这道12年的Google...

9820
来自专栏思影科技

Neuron:人类个体大脑的精准功能成像

来自美国德州VISN 17 Center of Excellence的Evan M. Gordon等人在Neuron期刊上发文,主要介绍了其提供的MSC数据集,...

31160
来自专栏AI科技评论

学界丨如何玩转网络安全下的深度学习?最全的学习资料清单看这里

近日,外媒 KDnuggets 刊登了一篇机器学习与网络安全相关的资料大汇总,文中列出了相关数据源的获取途径,优秀的论文和书籍,以及丰富的教程。大部分都是作者在...

405100
来自专栏大数据文摘

不幸的人各有不幸吗?文本分析流浪汉乞讨标语牌后发现的套路(附代码)

24760
来自专栏机器学习算法与Python学习

超强干货 | Python金融数据量化分析教程+机器学习电子书

76820
来自专栏机器之心

神经网络诊断皮肤癌超越人类专家?来自医疗界的这篇论文给出了证明

19680
来自专栏机器学习原理

NLP(6)——命名实体识别

普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需要实体识别的算法。下面就以医疗专业为例子来谈一下医疗专业的命名实体识别。

31130

扫码关注云+社区

领取腾讯云代金券