数据分析:正确,客观,实用

By thinkers | For thinkers

竟然开始有点喜欢Excel

数据,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。如今各行各业都充满了数据,对海量数据的再处理可以获得一些有价值的规律并以此助力决策。

[ 比数据更重要的是结构,比结构更重要的是模式,比模式更重要的是洞见,比洞见更重要的是执行。(注重实用实用实用,注意执行执行执行内心咆哮 ]

数据分析类型

描述性分析

探索性分析

验证性分析

一般初段位选手接触比较多的是描述性分析,需要注意的是,数据不是目的,图表不是目的,洞见才是目的,所导向的解决方案才是目的。

充分理解数据

数据表注意事项:

第一行必须是标题,即全部都是字段名称,且不存在重复字段

从第二行开始,都是记录行

无论是标题行还是记录行,都不能存在合并单元格的情况

一维数据更利于数据分析

EXCEL处理数据类型

文本

数值

货币

日期

符号

数值前加个美元符号就可以转变为货币,星期几也在日期里面,符号比较陌生需要关注一下。另外身份证号等为文本数据。

掌握数据分析的流程

一 | 明确数据分析的目的和思路

为什么要开展数据分析

通过这次数据分析我需要解决什么问题

一般的数据分析者缺乏目标性,即便外在形式再好看,与分析目的相违背就不合格。

案例:随着参数呈现怎样的变化?所有的数据都增长,这意味这什么?这种图表结构是否能够有效表达观点?分析的目的是否都考虑全面了?

二 | 获取需要分析的对象和预期目标

1. 公司内部

2. 公开数据获取

中国国家统计局

中国经济数据库CEIC

国家数据平台

三 | 数据预处理

整理工具:百度脑图(出乎意料地好用

四 | 筛选、透视、分析与工具准备

数据分析≠数据挖掘

数据透视表

vlookup

BI

python

五| 选择合适的数据呈现方式

六 | 撰写数据分析结构报告

数据展示永远辅助于数据报告,有价值的数据报告才是关键

数据分析误区

以点代面

案例:幸存者偏差

著名数学家亚伯拉罕·瓦尔德二战时一直在美军统计部门工作,有一次军方来找他,要求他看看飞机上的弹孔统计数据,在飞机的哪个部位加装装甲比较合适。

原来军方派出去的作战飞机,返航的时候往往都会带着不少弹孔回来。为了避免飞机被击落,就需要在飞机上加装装甲,但装甲安装多了,又会降低飞机的机动性,消耗更多的燃料。装多装少都不行,军方希望把装甲安装在飞机最容易受到攻击、最需要防护的地方,这样就可减少装甲的安装量,而不会降低防护效率。他们希望瓦尔德能算出这些部位究竟需要安装多少装甲。

瓦尔德拿到数据一看,引擎上平均每平方英尺有1.1个弹孔,机身1.73个,油料系统1.55个,其它部位1.8个。看起来机身和其它部位最容易受到攻击,应该加装装甲才行。瓦尔德的回答却让军方大吃一惊,飞机上最应该加装装甲的地方不是弹孔多的地方,而是弹孔少甚至没有弹孔的引擎。为什么会这样呢?瓦尔德的逻辑非常简单:飞机各部位中弹的概率应该是一样的,为什么引擎上会很少?引擎上的弹孔到哪儿去了?原来这些弹孔已经随着坠毁的飞机落到地球上去了!军方统计的只是返航的飞机,那些遭遇不幸的飞机被忽视掉了。

鲜明数据误导使我们将偶然因素放大

从概率的角度看

把简单问题复杂化

是你想太多or眼高手低

实用性不强

处理数据透视表时的疑惑

与现在采取的处理方式记录

分类数据是在筛选还是标题呈现?

标题栏可以选择多个,先选主题再选类型就可以很好地展现

为什么只能求和不能做平均值的表?

在选择推荐的数据透视表时应该选择平均值推荐的类型,用求和项之后改不过来只有删除重做

空行怎么删除?

不能直接删除也不能直接添加,只能点透视表选项再操作

怎么改数据?

直接在原来的表里改,然后刷新透视表

插入栏里面的切片器有什么用?

筛选条件太多时,切片器可以快速操作

也可以断开切片器和图表的连接关系

清楚筛选器的筛选结构

alt+c

怎么把图表的柱形图换成小图标?

单击-格式-填充-图片-点击-填充菜单-叠层

练习:集智俱乐部11月推文小部分分析

涉及书籍 :

【人人都会数据分析 】

【数据分析教程(入门篇)】

【洞见大数据——毕马威KPMG】

【大数据分析实例】

下一步:

【数据科学:从入门到精通】的前25%,预计5小时

内容主要是数理基础

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181126A09RW200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券