By thinkers | For thinkers
竟然开始有点喜欢Excel
数据,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。如今各行各业都充满了数据,对海量数据的再处理可以获得一些有价值的规律并以此助力决策。
[ 比数据更重要的是结构,比结构更重要的是模式,比模式更重要的是洞见,比洞见更重要的是执行。(注重实用实用实用,注意执行执行执行内心咆哮 ]
数据分析类型
描述性分析
探索性分析
验证性分析
一般初段位选手接触比较多的是描述性分析,需要注意的是,数据不是目的,图表不是目的,洞见才是目的,所导向的解决方案才是目的。
充分理解数据
数据表注意事项:
第一行必须是标题,即全部都是字段名称,且不存在重复字段
从第二行开始,都是记录行
无论是标题行还是记录行,都不能存在合并单元格的情况
一维数据更利于数据分析
EXCEL处理数据类型
文本
数值
货币
日期
符号
数值前加个美元符号就可以转变为货币,星期几也在日期里面,符号比较陌生需要关注一下。另外身份证号等为文本数据。
掌握数据分析的流程
一 | 明确数据分析的目的和思路
为什么要开展数据分析
通过这次数据分析我需要解决什么问题
一般的数据分析者缺乏目标性,即便外在形式再好看,与分析目的相违背就不合格。
案例:随着参数呈现怎样的变化?所有的数据都增长,这意味这什么?这种图表结构是否能够有效表达观点?分析的目的是否都考虑全面了?
二 | 获取需要分析的对象和预期目标
1. 公司内部
2. 公开数据获取
中国国家统计局
中国经济数据库CEIC
国家数据平台
三 | 数据预处理
整理工具:百度脑图(出乎意料地好用
四 | 筛选、透视、分析与工具准备
数据分析≠数据挖掘
数据透视表
vlookup
BI
python
五| 选择合适的数据呈现方式
六 | 撰写数据分析结构报告
数据展示永远辅助于数据报告,有价值的数据报告才是关键
数据分析误区
以点代面
案例:幸存者偏差
著名数学家亚伯拉罕·瓦尔德二战时一直在美军统计部门工作,有一次军方来找他,要求他看看飞机上的弹孔统计数据,在飞机的哪个部位加装装甲比较合适。
原来军方派出去的作战飞机,返航的时候往往都会带着不少弹孔回来。为了避免飞机被击落,就需要在飞机上加装装甲,但装甲安装多了,又会降低飞机的机动性,消耗更多的燃料。装多装少都不行,军方希望把装甲安装在飞机最容易受到攻击、最需要防护的地方,这样就可减少装甲的安装量,而不会降低防护效率。他们希望瓦尔德能算出这些部位究竟需要安装多少装甲。
瓦尔德拿到数据一看,引擎上平均每平方英尺有1.1个弹孔,机身1.73个,油料系统1.55个,其它部位1.8个。看起来机身和其它部位最容易受到攻击,应该加装装甲才行。瓦尔德的回答却让军方大吃一惊,飞机上最应该加装装甲的地方不是弹孔多的地方,而是弹孔少甚至没有弹孔的引擎。为什么会这样呢?瓦尔德的逻辑非常简单:飞机各部位中弹的概率应该是一样的,为什么引擎上会很少?引擎上的弹孔到哪儿去了?原来这些弹孔已经随着坠毁的飞机落到地球上去了!军方统计的只是返航的飞机,那些遭遇不幸的飞机被忽视掉了。
鲜明数据误导使我们将偶然因素放大
从概率的角度看
把简单问题复杂化
是你想太多or眼高手低
实用性不强
处理数据透视表时的疑惑
与现在采取的处理方式记录
分类数据是在筛选还是标题呈现?
标题栏可以选择多个,先选主题再选类型就可以很好地展现
为什么只能求和不能做平均值的表?
在选择推荐的数据透视表时应该选择平均值推荐的类型,用求和项之后改不过来只有删除重做
空行怎么删除?
不能直接删除也不能直接添加,只能点透视表选项再操作
怎么改数据?
直接在原来的表里改,然后刷新透视表
插入栏里面的切片器有什么用?
筛选条件太多时,切片器可以快速操作
也可以断开切片器和图表的连接关系
清楚筛选器的筛选结构
alt+c
怎么把图表的柱形图换成小图标?
单击-格式-填充-图片-点击-填充菜单-叠层
练习:集智俱乐部11月推文小部分分析
涉及书籍 :
【人人都会数据分析 】
【数据分析教程(入门篇)】
【洞见大数据——毕马威KPMG】
【大数据分析实例】
下一步:
【数据科学:从入门到精通】的前25%,预计5小时
内容主要是数理基础
领取专属 10元无门槛券
私享最新 技术干货