【零一】#操作教程贴#从0开始,教你如何做数据分析#初阶#第五篇

大家好,我是零一,今天开始继续给大家带来数据分析基础系列教程。我的公众微信号是:start_data,欢迎大家收听。

上一篇中,我们提到波士顿矩阵,波士顿矩阵又称为增长-份额矩阵,它的优点是简单便捷,而缺点也是恰恰是它的优点,因为简单便捷,使得这个模型的解释度降低,它只是在市场营销中使用到的一种方法,作为参考,还要结合其他的方法,绝不能用它来作为决策的唯一指导。

================================================

波士顿矩阵的思想,其实可以拓展开来,比如我们拿淘宝指数上面的数据,关键词的增幅和搜索指数,又或者拿宝贝数据UV和成交量,又或者拿宝贝销售速度和库存。

================================================

下面,我再具体介绍一下波士顿矩阵的几种模型。

上一篇中我只是单独用了9月份的数据,那么,假设,我用多个月的数据,就会形成一个趋势。

下面是成功轨迹,也是比较理想的成长路线。在高增长下,市场占有率逐渐上升,最终落入金牛区。有这种轨迹的,那么恭喜你,发财了记得请零一吃饭!

(关于交点,可以选择中点或者自己根据自己市场的情况来制定。不过一般选品,是择优,选择中点即可)

(竖轴是增长率,横轴是相对市场份额)

下面是现金支持趋势,可能是较早切入市场,占领了较高的市场份额,但却没有足够资金和营销策略的支持,可能就会面临失败的危险,一旦有这种趋势就要引起警惕。审视一下自己的产品定位有没有偏差丶营销节奏有没有把控好等问题

下面是灾难轨迹,两条路线,一条是从明星——问题——瘦狗,另一条是从金牛——瘦狗。这两个轨迹就是一个产品,一个市场逐渐萎缩死亡的过程。这条路,说多了都是惭愧的泪啊!

这个矩阵是根据最终的数据结果来分析的,那么我们不能脱离商业理解,如果增长降低了,市场份额也降低了,除了竞争加大之外,是否还有其他深层次的原因呢?

其实,我们更多的是要思考消费者是否认同我们的产品和服务?我们的产品是否能吸引消费者?站在买家的角度来思考市场变化。

说到市场,一般从两个方面来细分市场,一个是基于需求的市场细分,一个是基于行为的市场细分。

基于需求的市场细分,主要是指消费者的需要丶欲望。思考得更多的是同样的行业,我们要去满足消费者的哪种心理需求。

基于行为的市场细分更多地关注于消费者可能会购买的某种行为,这句话,我说得挺拗口。其实很简单,就是消费者会倾向于购买什么产品。比如,苹果5s上市了,相应地买了苹果5s的消费者,就可能会产生对苹果5s配件的需求,需求就会转化为购买力。

这两种方法,没有说哪一种更好,都可以去尝试,在数据分析的角度讲,是分析的方法和模型不同。撇开数据,那么这两种方法就是一种思路。

基于需求的要站在买家的角度,心理需求来思考,从而细分市场,发现市场。

基于行为的则根据市场产品结构丶消费行为来细分。

那问题来了,有朋友会想,之前零一教的不是没用了吗?

其实不会没用,之前都是在看容量,看趋势,是在看市场的全貌,而细分就像是在看市场的内部结构。大家好弄清楚它们之间的关系。

下面继续教大家做数据分析,这是初阶的最后一篇了,要为后续的中阶和高阶打基础,理论会稍微多一点,后面不会花篇幅来解释这些。

我把数据分析大致分为三个阶段,

初阶是数据呈现,就是简单地展现出现有的一些数据,并做描述统计分析(最大值丶最小值丶平均值等)。

中阶是数据分析,是将不同的数据进行交叉分析,运用回归分析等统计分析方法。

高阶是数据挖掘,是将数据做更深层次的分析,运用数据挖掘的模型或相关算法。

今天给大家介绍下描述性统计。描述性统计,就是在描述数据。

比如之前介绍给大家的,极差丶波动系数就是在描述数据的离散程度,所谓离散程度,大家看下图,数据是离散的。

再看下面的图,目测在(50,50)附近有很多个点,通过目测就看得出来下面这个数据的离散程度没有上图的高。这个现象用什么来描述,解释呢?就是用我们之前说过的波动系数,就能把这两张图的波动程度给描述出来。

除了离散程度之外,一组数据基本的有:最小值,1/4位数,中位数,3/4位数,最大值,这就是所谓的五数总括。

最小值很简单了,直接在excel里面敲入=min(),就能算最小值。有时候我们需要找出我们最低的销量是多少件,最低的转化率是多少?

最大值也是一样的道理,在excel里面是=max(),就能算出最大值。

这个在第二篇有跟大家简单介绍过的了,就不截图了。

接着是1/4位数丶中位数和3/4位数。如果没有接触过统计学的朋友会比较晕,不知道这个是什么来的。这三个数将数据切成4个等分的小数据集。

大家看下面的数列

1,50,10,100,2

最小值是1,最大值是100,1/4位数是50,中位数是10,3/4位数是100。

下面我们再看个例子,假如是12个月的销量数据

1,2,3,4,5,6,7,8,9,10,11,12

最小值是1,最大值是12,1/4位数是3.75,中位数是6.5,3/4位数是9.25

而我们用得最多的是均值6.5,这里刚好跟中位数一样。

但是,我们再看下面另一组数据

1,2,3,4,5,6,7,8,9,10,11,100

最小值是1,最大值是100,1/4位数是3.75,中位数是6.5,3/4位数是9.25

除了最大值不一样,其他跟前面是一样的。我们看下均值,这里的均值是13.83,跟前面的不同了,这个100这么大的值可能是活动的效果,那这个时候,如果我拿均值来作为指标衡量前面12个月的销量,就只有最后一个数据达标。当数据整体平稳,但前后有很大的异常值的时候,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数来作为指标。

用散点图可以非常直观地发现离散值。将我们上面的一组数据画出散点图,如下图就会发现一个异常值。

在excel里面,用=QUARTILE(),就可以得到这5个数。

另一个指标,众数。

大家看下面这个数列,假如是客服的业绩

1,3,5,5,5,5,5,5,5,5,10,20

我们先算一下平均值,是6.167,如果用这个指标,这里12个数据里面,只有10和20这两个人达标。那么,这个时候,就要用众数了。所谓众数,就是出现的最多的一个数字,毋庸置疑,这里的众数是5,那么,就会有10个人达标了。

众数在excel里面是=mode()

非常简单就能算出来,特别是数据量大的时候,不用目测。

以上的指标是根据数据的分布情况来选用的,一般用散点图看一下,然后就能判断要使用哪个指标来作为参考。

前面说到了异常值,异常值的处理方法有很多,那么,简单的方法,就是把异常值删掉。比如前面的,(1:11,100)这个数列,就可以把100从这个数列里面移走。或者,也可以用均值填充。比如,之前算出来均值是13.83,就可以用这个指来替代变成(1:11,13.83)。

不是什么时候都要处理异常值,只有在异常值严重影响我们判断的时候,就要对它进行处理。

好了,今天的内容就这么多了。最近比较忙,写文章会慢一些,大家不要催哦!最后再啰嗦几句,做数据分析的态度是务实,不要太浮躁,不要太自私,一切用数据说话,这是做数据分析师的基本态度。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2013-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

深度学习教父Hinton专访,AI已跨越重要分水岭

【新智元导读】《福布斯》昨日刊登Geoff Hinton专访。游走在学术和产业的AI大神Hinton谈到了自己研究兴趣的起源、在多伦多大学和谷歌所做的研究工作以...

34560
来自专栏大数据文摘

有史以来最大的数学证明:数据多达200TB

23190
来自专栏量子位

同样是认猫,这家小公司居然比Google强?对,只用几张图片

△ 来源:Bloomberg 量子位 李林 | 整理编译 认猫,是人工智能技术发展的第一推动力。 2012年,吴恩达和Jeff Dean带领的Google Br...

37090
来自专栏计算机视觉战队

基于深度学习的视频内容识别

好久未和老相好的您们面对面的知识交流过,不知道大家最近科研是否顺利,有没有新的想法和创新,我都会祝学术界的您科研硕果累累,祝工业界的您工程完善更多智能化功能,造...

60380
来自专栏王清培的专栏

.NET应用架构设计—面向对象分析与设计四色原型模式(彩色建模、领域无关模型)(概念版)

阅读目录: 1.背景介绍 2.问自己,UML对你来说有意义吗?它帮助过你对系统进行分析、建模吗? 3.一直以来其实我们被一个缝隙隔开了,使我们对OOAD遥不...

25880
来自专栏牛客网

从春招到秋招,算法工程师养成记(阿里+腾讯+其他)

自我介绍 大家好,我是老班长,一名老牛油(至于多老呢?我基本是第一批关注牛客网的同学,我加牛客网qq1群的时候,群里只有400多人(现在估计10多个群了吧),那...

688110
来自专栏华章科技

机器学习进阶路上的五个境界

关于机器学习,这个话题最近实在太火了,甚至有些虚火了。有了虚火,就容易有泡沫。大浪淘沙,要想在数据科学这个行业生存下来,任何一个从业者都需要认清自己的位置,每上...

11630
来自专栏PPV课数据科学社区

【数学】统计:P值只是冰山一角

? 没有哪个统计值比P值更富于争议了,数百篇博客和论文围绕许多统计学家嗤笑的“零假设显著性检验”展开。(null hypothesis significanc...

40660
来自专栏AI科技评论

ACL2018 明日墨尔本召开:总体论文接收率 24.7%,两大特邀讲者名单公布

雷锋网 AI 科技评论按:ACL2018 将于 7 月 15 日-7 月 20 日在墨尔本召开,这也是 ACL 第二次登陆澳洲。从 2006 年 ACL 首次在...

7820
来自专栏机器学习之旅

写给想转行机器学习深度学习的同学

update 1:很多同学还是私信我,让我推荐或者提供一些电子书给他们,我这边也打包了一些我认为比较重要的,如果有需要的同学可以「邮箱」联系我。申明,我所发送的...

38240

扫码关注云+社区

领取腾讯云代金券