前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【零一】#操作教程贴#从0开始,教你如何做数据分析#初阶#第五篇

【零一】#操作教程贴#从0开始,教你如何做数据分析#初阶#第五篇

作者头像
CDA数据分析师
发布2018-02-08 15:19:19
6640
发布2018-02-08 15:19:19
举报
文章被收录于专栏:CDA数据分析师

大家好,我是零一,今天开始继续给大家带来数据分析基础系列教程。我的公众微信号是:start_data,欢迎大家收听。

上一篇中,我们提到波士顿矩阵,波士顿矩阵又称为增长-份额矩阵,它的优点是简单便捷,而缺点也是恰恰是它的优点,因为简单便捷,使得这个模型的解释度降低,它只是在市场营销中使用到的一种方法,作为参考,还要结合其他的方法,绝不能用它来作为决策的唯一指导。

================================================

波士顿矩阵的思想,其实可以拓展开来,比如我们拿淘宝指数上面的数据,关键词的增幅和搜索指数,又或者拿宝贝数据UV和成交量,又或者拿宝贝销售速度和库存。

================================================

下面,我再具体介绍一下波士顿矩阵的几种模型。

上一篇中我只是单独用了9月份的数据,那么,假设,我用多个月的数据,就会形成一个趋势。

下面是成功轨迹,也是比较理想的成长路线。在高增长下,市场占有率逐渐上升,最终落入金牛区。有这种轨迹的,那么恭喜你,发财了记得请零一吃饭!

(关于交点,可以选择中点或者自己根据自己市场的情况来制定。不过一般选品,是择优,选择中点即可)

(竖轴是增长率,横轴是相对市场份额)

下面是现金支持趋势,可能是较早切入市场,占领了较高的市场份额,但却没有足够资金和营销策略的支持,可能就会面临失败的危险,一旦有这种趋势就要引起警惕。审视一下自己的产品定位有没有偏差丶营销节奏有没有把控好等问题

下面是灾难轨迹,两条路线,一条是从明星——问题——瘦狗,另一条是从金牛——瘦狗。这两个轨迹就是一个产品,一个市场逐渐萎缩死亡的过程。这条路,说多了都是惭愧的泪啊!

这个矩阵是根据最终的数据结果来分析的,那么我们不能脱离商业理解,如果增长降低了,市场份额也降低了,除了竞争加大之外,是否还有其他深层次的原因呢?

其实,我们更多的是要思考消费者是否认同我们的产品和服务?我们的产品是否能吸引消费者?站在买家的角度来思考市场变化。

说到市场,一般从两个方面来细分市场,一个是基于需求的市场细分,一个是基于行为的市场细分。

基于需求的市场细分,主要是指消费者的需要丶欲望。思考得更多的是同样的行业,我们要去满足消费者的哪种心理需求。

基于行为的市场细分更多地关注于消费者可能会购买的某种行为,这句话,我说得挺拗口。其实很简单,就是消费者会倾向于购买什么产品。比如,苹果5s上市了,相应地买了苹果5s的消费者,就可能会产生对苹果5s配件的需求,需求就会转化为购买力。

这两种方法,没有说哪一种更好,都可以去尝试,在数据分析的角度讲,是分析的方法和模型不同。撇开数据,那么这两种方法就是一种思路。

基于需求的要站在买家的角度,心理需求来思考,从而细分市场,发现市场。

基于行为的则根据市场产品结构丶消费行为来细分。

那问题来了,有朋友会想,之前零一教的不是没用了吗?

其实不会没用,之前都是在看容量,看趋势,是在看市场的全貌,而细分就像是在看市场的内部结构。大家好弄清楚它们之间的关系。

下面继续教大家做数据分析,这是初阶的最后一篇了,要为后续的中阶和高阶打基础,理论会稍微多一点,后面不会花篇幅来解释这些。

我把数据分析大致分为三个阶段,

初阶是数据呈现,就是简单地展现出现有的一些数据,并做描述统计分析(最大值丶最小值丶平均值等)。

中阶是数据分析,是将不同的数据进行交叉分析,运用回归分析等统计分析方法。

高阶是数据挖掘,是将数据做更深层次的分析,运用数据挖掘的模型或相关算法。

今天给大家介绍下描述性统计。描述性统计,就是在描述数据。

比如之前介绍给大家的,极差丶波动系数就是在描述数据的离散程度,所谓离散程度,大家看下图,数据是离散的。

再看下面的图,目测在(50,50)附近有很多个点,通过目测就看得出来下面这个数据的离散程度没有上图的高。这个现象用什么来描述,解释呢?就是用我们之前说过的波动系数,就能把这两张图的波动程度给描述出来。

除了离散程度之外,一组数据基本的有:最小值,1/4位数,中位数,3/4位数,最大值,这就是所谓的五数总括。

最小值很简单了,直接在excel里面敲入=min(),就能算最小值。有时候我们需要找出我们最低的销量是多少件,最低的转化率是多少?

最大值也是一样的道理,在excel里面是=max(),就能算出最大值。

这个在第二篇有跟大家简单介绍过的了,就不截图了。

接着是1/4位数丶中位数和3/4位数。如果没有接触过统计学的朋友会比较晕,不知道这个是什么来的。这三个数将数据切成4个等分的小数据集。

大家看下面的数列

1,50,10,100,2

最小值是1,最大值是100,1/4位数是50,中位数是10,3/4位数是100。

下面我们再看个例子,假如是12个月的销量数据

1,2,3,4,5,6,7,8,9,10,11,12

最小值是1,最大值是12,1/4位数是3.75,中位数是6.5,3/4位数是9.25

而我们用得最多的是均值6.5,这里刚好跟中位数一样。

但是,我们再看下面另一组数据

1,2,3,4,5,6,7,8,9,10,11,100

最小值是1,最大值是100,1/4位数是3.75,中位数是6.5,3/4位数是9.25

除了最大值不一样,其他跟前面是一样的。我们看下均值,这里的均值是13.83,跟前面的不同了,这个100这么大的值可能是活动的效果,那这个时候,如果我拿均值来作为指标衡量前面12个月的销量,就只有最后一个数据达标。当数据整体平稳,但前后有很大的异常值的时候,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数来作为指标。

用散点图可以非常直观地发现离散值。将我们上面的一组数据画出散点图,如下图就会发现一个异常值。

在excel里面,用=QUARTILE(),就可以得到这5个数。

另一个指标,众数。

大家看下面这个数列,假如是客服的业绩

1,3,5,5,5,5,5,5,5,5,10,20

我们先算一下平均值,是6.167,如果用这个指标,这里12个数据里面,只有10和20这两个人达标。那么,这个时候,就要用众数了。所谓众数,就是出现的最多的一个数字,毋庸置疑,这里的众数是5,那么,就会有10个人达标了。

众数在excel里面是=mode()

非常简单就能算出来,特别是数据量大的时候,不用目测。

以上的指标是根据数据的分布情况来选用的,一般用散点图看一下,然后就能判断要使用哪个指标来作为参考。

前面说到了异常值,异常值的处理方法有很多,那么,简单的方法,就是把异常值删掉。比如前面的,(1:11,100)这个数列,就可以把100从这个数列里面移走。或者,也可以用均值填充。比如,之前算出来均值是13.83,就可以用这个指来替代变成(1:11,13.83)。

不是什么时候都要处理异常值,只有在异常值严重影响我们判断的时候,就要对它进行处理。

好了,今天的内容就这么多了。最近比较忙,写文章会慢一些,大家不要催哦!最后再啰嗦几句,做数据分析的态度是务实,不要太浮躁,不要太自私,一切用数据说话,这是做数据分析师的基本态度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2013-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档