【零一】#操作教程贴#从0开始,教你如何做数据分析#中阶#第七篇上

HI~!最近过得好吗?零一可是忙死了,呵呵。今天继续跟大家分享。我的微信号是start_data。

上次跟大家说过数据分析的4个任务,今天讲第一个任务,预测。

预测这个任务在很多场景可以应用到。比如

预测某行业未来的市场走势

预测买家会不会响应我们的营销主张

预测股票走势/预测福利彩票开奖号码

预测我们自己的体重/身高

大家可以发现,无论是商业还是生活都可以应用到,作为一名【业务】数据分析师而言(以下简称数据分析师,但特指业务数据分析师),当然不会什么事情都去做分析,那么,是什么因素决定了我们要去做分析呢?

答案是【商业价值】。

作为一名数据分析师应该以【商业价值】作为导向,我们的分析产生了商业价值,那么我们作为一名数据分析师才能有相应的价值。数据分析师的身价也因此而来。

数据分析师必不可少的4要素是

【思维】+【业务】+【工具】+【数据】

【思维】指分析思维,大家可以发现我正在一点一滴地传播给大家。

【业务】指业务能力,只有深入了解企业或者我们自己的业务需求,才能【点数成金】,如果今天我不小心请了一个完全不懂电商的数据分析师来帮我分析,那结果是堪忧的。因为他可能不知道什么是UV,什么是PV,什么是ROI,什么是直通车/钻展。

如果把数据分析师比喻成剑客,那【思维】和【业务】就是这个剑客的任督二脉了。

【工具】古人有云:工欲善其事,必先利其器,有工具才能高效丶精准地做出分析。【工具】就像剑客手中的宝剑一样。

【数据】数据分析师手里没有数据,也就不存在数据分析师了。【数据】就像剑客身体中的血液,连血液都木有,就活不下去了。

在Excel中,结合数据挖掘套件,可以非常简单地完成【预测】这个任务。

虽然鼠标点几下就可以完成【预测】,但是做【预测】的方法有好几种,分别是在不同的情况下应用的。如果用错了方法,可能程序就会报错。哪怕不报错,出来的结果也可能是差强人意的。

具体用哪种方法,我们根据的是什么呢?

答案是【数据类型】

数据分成3种类型,当然你们去看一些数据分析丶数据挖掘的书籍里面的分法可能会跟我的不一样。

【数据类型】分为【定量】,【定性】和【时间序列】。

【定量】就是我们的数字,1,2,3,4,5,6,7,8,9,0组成的数值,当数据是这种数值的时候,我们就可以把他归类为【定量】数据类型。

【定性】一般是字符型的数据,比如,中文丶英文就是一种字符型的数据。

【时间序列】跟定量非常接近,但不同的就是时间序列是时间格式的数据,那么我们看下电脑系统的时间,就是时间格式的数据,称之为【时间序列】。

对应的分析方法(不局限以下方法)

【定量】-【线性回归】

【定性】-【逻辑回归】

【时间序列】-【时间序列预测】

怎么选择就看我们要预测的维度,是根据哪种数据的变化来预测的。

比如,我们已知时间和销量,要预测未来的销量。只要维度里面有一个维度是时间,就应该选择【时间序列预测】。

如果已知高质宝贝数和成交量,要根据高质宝贝数啦预测成交量,就是通过【定量】预测【定量】,因而选择【线性回归】。

如果已知买家的地域,下单金额和购买件数,来预测买家会不会响应我的促销活动,我们预测的就是买家是否会重复购买,那就是会或不会的问题,是通过【定量】预测【定性】,类似这种预测结果是A或B或C……这种分类情况,就应该选择【逻辑回归】

下面3个例子来帮助大家掌握【预测】

1丶已知时间和成交量,要预测未来几个月的成交量

源数据如下

源数据挺多,仅截图一部分。

源数据可以是表也可以是我们选择的区域也是可以外部数据源,这里我们直接在表内选择数据区域。

时间戳会自动识别,前提是数据必须是日期格式的。(excel里面时间序列是日期格式)

查看模型结果

可以指定要预测多少个单位时间。

可以看到使用的是ARIMA算法,其实算法我们还可以在建立模型的时候进行设置,这里不解释太多。

模型建立后,可以用查询工具

结果如下图所示,给出时间戳丶预测的成交量和标准偏差。

2丶手上有高质宝贝数和成交量两个数据,假如现在已知未来几个月的高质宝贝数,通过这个来预测成交量。

数据源如下

参数中,我们可以选择算法还可以配置参数,这里我们选择线性回归即可,参数不解释。

定性集(国内翻译叫训练集)和测试集是数据挖掘中非常重要的一个概念。也是别于统计学的一个思想。统计学中是用统计方法来检验模型是否靠谱,而数据挖掘中,是将数据源拆分成两部分,一部分用来建立模型,这一部分数据称之为训练集。另一部分在模型建立后,回代入模型中,进行测试,看模型的准确率有高,这一部分数据称之为测试集。现在数据量很少,而且作为示例,可以把测试集的百分比设置为0,也就是不拆分数据,将所有的数据都用在建立模型上面。

在模型的窗口中会看到回归方程,如果不懂回归方程的,可以找一本高等数学的教材看看或者直接度娘。

打开查询工具,让模型做出预测。

下图中看到的高质宝贝数是已知条件,已知高质宝贝数,但成交量未知,这时模型会做出预测。

predict是预测的意思。这里是添加预测值作为输出。

输出结果如下,输出 1这个字段就是模型预测出来的结果。

3丶手头上有历史买家订单数据,买家的地域,下单金额和购买件数(只要处理下源数据,就可以得到是否重复购买这个数据,1表示会重复购买,0表示不会)

模型浏览中可以看到会重复购买的买家的特性,和不会重复购买的买家的特性。

假设下面是新的买家数据,那么我们要来预测下,这4位新的买家是否会重复购买,成为回头客。

结果如下,模型判定只有王六会重复购买。

第三个例子中有非常严重的问题,就是数据源太少,这里仅作为示例,数据源太少是做数据分析的一个大忌(当然某些时候不是)

讲到这里第七篇预测还没有讲完,会有第七篇的续篇。

看下时间,又是凌晨2点多。这个星期只睡了十几个小时,周末补眠。

这是中阶的内容,我发现如果要细讲,是讲不完的。。。大家跟上。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2014-01-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程

7步让你从零开始掌握Python机器学习!

这篇文章旨在通过7个步骤,将最少的机器学习知识转化为知识型实践者,所有这一切都在使用免费的材料和资源。这个大纲的主要目标是帮助你通过许多可用的免费选项; 有很多...

22390
来自专栏大数据文摘

揭穿机器学习“皇帝的新装”

我们常把机器学习描述为一种使用数据模式标记事物的神奇技术。听起来艰涩,但事实上,拨开层层概念,机器学习的核心简单到令人尴尬。

12140
来自专栏应兆康的专栏

送给刚踏入数模路上的萌新们

送给刚踏入数模路上的萌新们 这里不会引用任何官方术语,均为我个人的理解,所以小伙伴们放心阅读 前面如果觉得很枯燥,可以调到后面,后面会提供干货 顺便打个广告,嘿...

454100
来自专栏PPV课数据科学社区

基础篇:从 0 到 1 掌握 Python 机器学习(附资源)

Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0...

51480
来自专栏华章科技

为何你只能做出渣图表?数据可视化的十大误区

通过可视化信息,我们的大脑可以更有效地合成和保留信息内容,增强对信息的理解。但是如果不正确数据可视化,它可能弊大于利。错误的图表可以减少数据的信息,或者更糟的是...

10730
来自专栏IT派

从强化学习基本概念到Q学习的实现,打造自己的迷宫智能体

导语:近年以来,强化学习在人工智能所充当的角色越来越重要了,很多研究机构和大学都将强化学习与深度学习相结合打造高性能的系统。因此,本文注重描述强化学习的基本概念...

42640
来自专栏新智元

百度公开硬件基准 DeepBench,推动深度学习专用芯片研发竞争

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

41160
来自专栏IT派

Keras vs PyTorch:谁是「第一」深度学习框架?

值得一提的是,尽管在 4 月底 PyTorch 在 0.4 版本中已经加入了对于 Windows 的支持,但其对比 Keras 与 TensorFlow 在 W...

13520
来自专栏专知

专知主题链路知识推荐#1——马尔科夫链蒙特卡洛采样(附代码)

【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视...

34270
来自专栏杨熹的专栏

David Silver深度强化学习第1课

强化学习-1.jpg 强化学习本质上是要找到一种最优的方式来做决策。 强化学习涉及到很多学科领域,例如它是计算机科学中机器学习的一部分,工业中的优化控制,还有模...

32450

扫码关注云+社区

领取腾讯云代金券