首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【零一】#操作教程贴#从0开始,教你如何做数据分析#中阶#第七篇上

【零一】#操作教程贴#从0开始,教你如何做数据分析#中阶#第七篇上

作者头像
CDA数据分析师
发布2018-02-08 15:23:46
6400
发布2018-02-08 15:23:46
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

HI~!最近过得好吗?零一可是忙死了,呵呵。今天继续跟大家分享。我的微信号是start_data。

上次跟大家说过数据分析的4个任务,今天讲第一个任务,预测。

预测这个任务在很多场景可以应用到。比如

预测某行业未来的市场走势

预测买家会不会响应我们的营销主张

预测股票走势/预测福利彩票开奖号码

预测我们自己的体重/身高

大家可以发现,无论是商业还是生活都可以应用到,作为一名【业务】数据分析师而言(以下简称数据分析师,但特指业务数据分析师),当然不会什么事情都去做分析,那么,是什么因素决定了我们要去做分析呢?

答案是【商业价值】。

作为一名数据分析师应该以【商业价值】作为导向,我们的分析产生了商业价值,那么我们作为一名数据分析师才能有相应的价值。数据分析师的身价也因此而来。

数据分析师必不可少的4要素是

【思维】+【业务】+【工具】+【数据】

【思维】指分析思维,大家可以发现我正在一点一滴地传播给大家。

【业务】指业务能力,只有深入了解企业或者我们自己的业务需求,才能【点数成金】,如果今天我不小心请了一个完全不懂电商的数据分析师来帮我分析,那结果是堪忧的。因为他可能不知道什么是UV,什么是PV,什么是ROI,什么是直通车/钻展。

如果把数据分析师比喻成剑客,那【思维】和【业务】就是这个剑客的任督二脉了。

【工具】古人有云:工欲善其事,必先利其器,有工具才能高效丶精准地做出分析。【工具】就像剑客手中的宝剑一样。

【数据】数据分析师手里没有数据,也就不存在数据分析师了。【数据】就像剑客身体中的血液,连血液都木有,就活不下去了。

在Excel中,结合数据挖掘套件,可以非常简单地完成【预测】这个任务。

虽然鼠标点几下就可以完成【预测】,但是做【预测】的方法有好几种,分别是在不同的情况下应用的。如果用错了方法,可能程序就会报错。哪怕不报错,出来的结果也可能是差强人意的。

具体用哪种方法,我们根据的是什么呢?

答案是【数据类型】

数据分成3种类型,当然你们去看一些数据分析丶数据挖掘的书籍里面的分法可能会跟我的不一样。

【数据类型】分为【定量】,【定性】和【时间序列】。

【定量】就是我们的数字,1,2,3,4,5,6,7,8,9,0组成的数值,当数据是这种数值的时候,我们就可以把他归类为【定量】数据类型。

【定性】一般是字符型的数据,比如,中文丶英文就是一种字符型的数据。

【时间序列】跟定量非常接近,但不同的就是时间序列是时间格式的数据,那么我们看下电脑系统的时间,就是时间格式的数据,称之为【时间序列】。

对应的分析方法(不局限以下方法)

【定量】-【线性回归】

【定性】-【逻辑回归】

【时间序列】-【时间序列预测】

怎么选择就看我们要预测的维度,是根据哪种数据的变化来预测的。

比如,我们已知时间和销量,要预测未来的销量。只要维度里面有一个维度是时间,就应该选择【时间序列预测】。

如果已知高质宝贝数和成交量,要根据高质宝贝数啦预测成交量,就是通过【定量】预测【定量】,因而选择【线性回归】。

如果已知买家的地域,下单金额和购买件数,来预测买家会不会响应我的促销活动,我们预测的就是买家是否会重复购买,那就是会或不会的问题,是通过【定量】预测【定性】,类似这种预测结果是A或B或C……这种分类情况,就应该选择【逻辑回归】

下面3个例子来帮助大家掌握【预测】

1丶已知时间和成交量,要预测未来几个月的成交量

源数据如下

源数据挺多,仅截图一部分。

源数据可以是表也可以是我们选择的区域也是可以外部数据源,这里我们直接在表内选择数据区域。

时间戳会自动识别,前提是数据必须是日期格式的。(excel里面时间序列是日期格式)

查看模型结果

可以指定要预测多少个单位时间。

可以看到使用的是ARIMA算法,其实算法我们还可以在建立模型的时候进行设置,这里不解释太多。

模型建立后,可以用查询工具

结果如下图所示,给出时间戳丶预测的成交量和标准偏差。

2丶手上有高质宝贝数和成交量两个数据,假如现在已知未来几个月的高质宝贝数,通过这个来预测成交量。

数据源如下

参数中,我们可以选择算法还可以配置参数,这里我们选择线性回归即可,参数不解释。

定性集(国内翻译叫训练集)和测试集是数据挖掘中非常重要的一个概念。也是别于统计学的一个思想。统计学中是用统计方法来检验模型是否靠谱,而数据挖掘中,是将数据源拆分成两部分,一部分用来建立模型,这一部分数据称之为训练集。另一部分在模型建立后,回代入模型中,进行测试,看模型的准确率有高,这一部分数据称之为测试集。现在数据量很少,而且作为示例,可以把测试集的百分比设置为0,也就是不拆分数据,将所有的数据都用在建立模型上面。

在模型的窗口中会看到回归方程,如果不懂回归方程的,可以找一本高等数学的教材看看或者直接度娘。

打开查询工具,让模型做出预测。

下图中看到的高质宝贝数是已知条件,已知高质宝贝数,但成交量未知,这时模型会做出预测。

predict是预测的意思。这里是添加预测值作为输出。

输出结果如下,输出 1这个字段就是模型预测出来的结果。

3丶手头上有历史买家订单数据,买家的地域,下单金额和购买件数(只要处理下源数据,就可以得到是否重复购买这个数据,1表示会重复购买,0表示不会)

模型浏览中可以看到会重复购买的买家的特性,和不会重复购买的买家的特性。

假设下面是新的买家数据,那么我们要来预测下,这4位新的买家是否会重复购买,成为回头客。

结果如下,模型判定只有王六会重复购买。

第三个例子中有非常严重的问题,就是数据源太少,这里仅作为示例,数据源太少是做数据分析的一个大忌(当然某些时候不是)

讲到这里第七篇预测还没有讲完,会有第七篇的续篇。

看下时间,又是凌晨2点多。这个星期只睡了十几个小时,周末补眠。

这是中阶的内容,我发现如果要细讲,是讲不完的。。。大家跟上。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档