常跟数据打交道,应该养成哪些好习惯?

文 | 邹昕

CDA数据分析师已获得作者授权

做过一点统计模型,做过一点数据分析,现在工作名字叫数据科学家,厚着脸皮抛砖引玉,聊聊数据分析中需要养成的良好习惯。

1. 了解数据分析的目的 / 需求

做数据分析的新人可能都遇到过,辛辛苦苦花了几个小时做出来的结果,跟客户 / 合作伙伴 / PM / 老板要的不是一个东西,运气好的话回去修补一下,花个半小时之类的,运气不好的话直接推倒重来,搞不好又得晚上加班了。

比如说下午六点,正准备收拾东西回家,PM 跟你说想看用户的活跃度,跟数据分析师提出需求说,我们来看看大家使用时长吧。那么问题来了,是看平均呢还是看中位数?是看某一种客户端比如移动端吗,或者是想每种客户端都分开来看?要根据用户的注册时间来做下划分吗?是否想看具体某个城市的?

甚至再退后一步,PM 想看这个干什么?仅仅是好奇,还是现在有个很重要的决定需要以此为基础?数据分析师需要以此来决定这件事情的优先级,是可以推回去的呢?还是说需要立马动手做,下班之前就需要给结果的。

二十岁的人生,三十年的工作经验,都是加班闹的。

2. 用常识来验证结果

虽然说数据说话,但是前提是数据来源、分析过程、解读等都是正确的。如何保证结果的正确性,最基本的一点就是不同方面来快速验证一下数量级。

比如说 PM 想看用户进行购买的数量(以下数据为虚构),发现迄今为止有 50 万 iPhone 用户点击了购买的页面,2 万安卓用户点击了购买的页面。同时还知道产品有五百万 iPhone 日活,而安卓的日活是三千万,由此可见 iPhone 用户就是舍得花钱啊,同时安卓用户那里还有很大的机会。然后简单比较一下可以发现,二者的参与率差了 150 倍,常识判断这差得有点太大了,难以解释。再仔细研究一下数据来源发现,原来安卓客户端的数据记录是取样 1% 的,所以直接看只有 2 万安卓用户点击,但实际上应该在两百万左右,这样一来 iPhone 和安卓的差别就比较合理了。

时刻谨记常识

3. 时刻注意数据分析的结果是否具有误导性

经常说的一句话叫“数据会说谎”。然后数据自身是不会说谎的,而是取决于如何做数据分析、如何展示结果。有时候是数据分析无意中引入了误导性元素,比如说不合理的坐标轴,有时候是刻意引入某些误导性元素,以达到特别的目的,这些都是应该尽量避免的。

比如说下图同样的增幅,因为用了不同的 y 轴,左右看起来就完全不一样了。如果听众没有仔细看坐标轴而仅仅看图形的话,妥妥的就被忽悠了(来源:Look out for these lies with charts)。

此外还有一些数据分析中常见的错误,可以参考下面回答:

数据分析中会常犯哪些错误,如何解决? - 邹昕的回答(https://www.zhihu.com/question/46942656/answer/103917503)

4. 想想你的听众是谁

数据很多时候不仅仅是一个人埋头苦干,还需要跟人交流,比如说跟合作伙伴的沟通,跟老板的沟通,跟其他组员的沟通,跟不同部门的人沟通。针对不同的听众,相应的需要强调不同方面。

比如说跟合作伙伴沟通的时候,可能他们知道你做这个的目的是什么,可能会对结果更感兴趣,以及由数据提供了什么建议或者决定。至于具体数据来源或者分析方法之类对他们来说不是那么重要,大多数时候只要确保数据分析师知道自己在做什么就可以了。

跟老板沟通结果的时候,大部分时候可能他们知道你做的大致方向,对分析思路的方法基本一点就通,细节方面可能无法面面俱到。

而跟不同部门的人沟通的时候,分享数据分析的结果之前,最好还能讲讲这件事情的目的,一些背景,大方向是什么诸如此类。

5. 动手之前先看看这件事情是不是已经有人做过了

这点在大一点的公司尤其明显,PM 或者老板提出一个需求,或者数据分析师自己对某一个问题感兴趣,然后想也没想,就 SQL 写得飞快跑了起来。很快一天过去了,产出了一大堆数据和报表,被自己的高效感动了,收拾书包回家。

晚上打开电脑,突然不知道哪根经搭错了,想白天做的这个事情会不会已经有人做过了呢?于是内网搜了一下,豁然发现某个角落里有一堆早就做好的 pipeline,数据、报表一应俱全,90% 想要的结果都在里面了,真是不知道该哭还是想笑。

数据分析很多时候是不需要重新造轮子的。

来源:程序员为什么热衷造轮子

6. 数据大小很重要又不重要

几年前,有个大数据的笑话,Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. 看不懂的请 google translate.

几年过去了,teenage 应该也长大成人不再是 teenage sex 了,很多时候大家是真的在做大数据了。虽然 size matters,但是数据分析师更应该关注数据能提供什么价值。

本来想放个 size matters 的图,然后 Google 了一下之后,出来的都是办公室不宜的,所以你们自己脑补吧。

7. So what?

描述性的数据据分析很重要,是了解用户,了解产品,感受大方向的基础。比如针对网站活跃用户做个画像,发现 55% 男性,40% 女性(别问我剩下 5% 怎么回事),70% 年薪百万,80% 985/211,90% 健身,100% 都是活跃用户(废话),如此种种。这么一大堆图表、信息堆起来之后,需要仔细想想这到底说明了什么问题?对改进产品有什么启示?如果仅仅是停留在描述性数据分析阶段的话,那么就无法发挥数据的最大作用,从数据的角度引导产品的改进。

ps. 引导产品改进可以是多个方面的,数据引导仅仅是其中的一部分。

8. 保持好奇心

数据分析不是一个新的学科,但是工具、内容、应用方向等一直在不断改变,所以保持好奇心,持续学习进步,探索新领域对长期发展是最重要的一点,(个人认为)没有之一。

与诸君共勉。

原文链接: http://daily.zhihu.com/story/8961227?utm_campaign=in_app_share&utm_medium=iOS&utm_source=weixin&from=timeline&isappinstalled=1

有关本问题的更多回答,也可查看:https://www.zhihu.com/question/26894983

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2016-11-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

关于混合云,很多人都会有这些误解

云计算的兴起和任何趋势化的领域一样,都会不可避免地出现相当多的炒作以及混淆视听的噪声。 混合云自然也不例外,这导致人们对云的混合方法也产生了各种各样的误解。为了...

3346
来自专栏华章科技

大数据分析然并卵?那是因为你没做到这些

看到这篇文章,感觉对数据分析一些点总结蛮好的,分享给大家。数据分析要产生真正的价值,或者说要让业务方,管理层感觉到真正的价值,其实需要非常多的东西:

441
来自专栏悦思悦读

大数据技术在舆情服务领域的应用

曾经担任翰云时代科技有限公司总裁,NOKIA位置服务部门大中国区产品总监,甲骨文(Oracle)顾问咨询服务部中国区实施总监,Sun公司ISV工程部高级经理,北...

2374
来自专栏闰土大叔

你想知道的一线互联网大厂前端招聘趋势和行情

前言 2017年年底到明年年初,前端行情是否会迎来一个新的拐点?我们不得而知。但是面试官想看到怎样的面试者,这里有你想要的答案,让我们一起来听听网易前端波神是如...

27810
来自专栏撸码那些事

透过用户思维谈程序员的进阶之路

最近读了一本关于产品的好书《用户思维+ 好产品让用户为自己尖叫》,虽然是一本产品相关的书,但是全书都在围绕如何让你的用户变得更优秀展开讨论。作者的观点很明确也很...

1423
来自专栏developerHaoz 的安卓之旅

Android 关于移动互联网寒冬和个人核心竞争力的看法

关于 Android 市场需求,其实从前年开始 Android 就处于寒冬的境地,最直观的标志就是,工作不那么好找了。因为前几年移动互联网开始流行,很多创业公司...

1142
来自专栏云计算D1net

白话易懂 编辑带你通俗解读云计算到底是什么

本文,我们不谈那些云计算专业难懂的话题,我们用一些简单易懂的辞藻来和大家聊聊云计算市场的一些具体情况,以及云计算技术究竟与我们的工作和生活有何联系。我们都知道,...

3986
来自专栏JAVA烂猪皮

同样的工作、同样的做需求,为什么他们能进阿里

方法论,就是人们认识世界、改造世界的一般方法,是人们用什么样的方式、方法来观察事物和处理问题。概括地说,世界观主要解决世界“是什么”的问题,方法论主要解决“怎么...

922
来自专栏互联网数据官iCDO

109个提高App下载量的营销策略(下)

引言:本文介绍了如何提高APP下载量的109个适用的营销策略中的73-109个策略(共109个策略)

1576
来自专栏智能算法

技术人,为什么需要构建知识图谱?

作者简介:安晓辉,10多年开发经验,曾任软件开发工程师、项目经理、研发经理、技术总监等岗位,著有《Qt Quick核心编程》、《Qt on Android核心编...

51914

扫码关注云+社区

领取腾讯云代金券