你了解你的数据吗(开篇):总览

0x00 前言

你了解你的数据吗?

前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。

数据从业者有很多,比如说数据开发工程师、数据仓库工程师、数据分析师、数据挖掘工程师、数据产品经理等等,不同岗位的童鞋对数据的理解有很大的不一样,而且侧重点也不同。那么,是否有一些数据相关的基础知识是所有数据从业者都值得了解的?不同的岗位对数据的理解又有多大的不同?数据开发工程师是否有必要去了解数据分析师是如何看待数据的?

本系列博客会尝试去学习、挖掘和总结这些内容,在数据的海洋中一起装x一起飞。

0x01 数据?数据!

开篇先上几个问题:

  1. 你知道自己的系统数据接入量是多少吗?
  2. 你知道数据的分布情况吗?
  3. 你知道自己常用的数据有什么隐藏的坑吗?

如果你对前面说的问题有不太了解的,那么我们就可以在以后的内容中一起愉快地交流和探讨。如果前面说的问题你的回答都是 “Yes”,那么我还是会尝试用新的问题来留住你。比如说:

  1. 既然你知道系统的数据接入量,那你知道每天的数据量波动吗?波动量在多大范围内是正常情况?
  2. 你知道的数据分布情况是什么样子的?除了性别、年龄和城市的分布,还有什么分布?
  3. 在偌大的数据仓库中,哪些数据被使用最多,哪些数据又无人问津,这些你了解吗?
  4. 在最常用的那批数据中,有哪些核心的维度?有相同维度的两个表之间的数据口径是否也一样?

假设你对上面的问题有稍许困惑或者感兴趣,我们正式开始对数据的认知之旅。

0x02 概览

现在,我们粗略地将数据从业者分为数据集群运维、数据开发工程师、数据仓库工程师、数据分析师、数据挖掘工程师和数据产品经理,这一小节先起一个引子来大致说明不同岗位对数据的了解是不同的,后文会详细地说明细节内容。

首先要说明的是,在工作中数据相关的职位都是有很多重合的,很难一刀切区分不同岗位的职责,比如说数据开发工程师本身就是一个很大的概念,他可以做数据接入、数据清洗、数据仓库开发、数据挖掘算法开发等等,再比如说数据分析师,很多数据分析师既要做数据分析,又要做一些提数的需求,有时候还要自己做各种处理。

公司的数据团队越大,相应的岗位职责就会越细分,反之亦然。在这里我们姑且用数据开发工程师和数据仓库工程师做对比来说明不同职责的同学对数据理解的侧重点有什么不同。我们假设数据开发工程师侧重于数据的接入、存储和基本的数据处理数据仓库工程师侧重于数据模型的设计和开发(比如维度建模)

  1. 数据开发工程师对数据最基本的了解是需要知道数据的接入状态,比如说每天总共接入多少数据,整体数据量是多大,接入的业务有多少,每个业务的接入量多大,多大波动范围是正常?然后还要对数据的存储周期有一个把握,比如说有多少表的存储周期是30天,有多少是90天?集群每日新增的存储量是多大,多久后集群存储会撑爆?
  2. 数据仓库工程师对上面的内容也要有一定的感知力,但是会有所区别,比如说,数据仓库工程师会更关注自己仓库建模中用到业务的数据状态。然后还需要知道终点业务的数据分布,比如说用户表中的年龄分布、性别分布、地域分布等。除此之外还应关注数据口径问题,比如说有很多份用户资料表,每张表的性别取值是否都是:男、女、未知,还是说会有用数值类型:1男、2女、0未知。
  3. 然后数据开发工程师对数据异常的侧重点可能会在今天的数据是否延迟落地,总量是否波动很大,数据可用率是否正常。
  4. 数据仓库工程师对数据异常的侧重点则可能是,今天落地的数据中性别为 0 的数据量是否激增(这可能会造成数据倾斜),某一个关键维度取值是否都为空。

上面的例子可能都会在一个数据质量监控系统中一起解决,但是我们在这里不讨论系统的设计,而是先有整体的意识和思路。

0x03 关于内容

那么,后续博客的内容会是什么样子的呢?目前来看,我认为会有两个角度:

  1. 抛开岗位的区分度,从基本到高级来阐释对数据的了解。比如说数据分布,最基本的程度只需要知道每天的接入量;深一点地话需要了解到其中重点维度的分布,比如说男女各多少;再深一点可能要需要知道重点维度的数据值分布,比如说年龄分布,怎样来合理划分年龄段,不同年龄段的比例。
  2. 每个岗位会关注的一些侧重点。这点笔者认为不太好区分,因为很多岗位重合度比较高,但是笔者会尝试去总结,同时希望大家一起来探讨这个问题。

0xFF 总结

本篇主要是抛出一些问题,后续会逐步展开地细说数据从业者对数据理解。其实最开始我想用“数据敏感度”、“数据感知力”这类标题,但是感觉这种概念比较难定义,因此用了比较口语化的标题。

笔者认为,在数据从业者的职业生涯中,不应只有编程、算法和系统,还应有一套数据相关的方法论,这套方法论会来解决某一领域的问题,即使你们的系统从Hadoop换到了Spark,数据模型从基本的策略匹配换到了深度学习,这些方法论也依旧会伴你整个职业生涯。因此这系列博客会尝试去学习、挖掘和总结一套这样的方法论,与君共勉。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

杨光信解析京东应对双11背后的“京东大脑”

1726
来自专栏数据的力量

运营必读 |“用户金字塔模型”在社区产品中的重要性

1732
来自专栏ATYUN订阅号

【学术】量子算法与计算机对抗,胜者究竟是谁?

我们对“量子霸权(quantum supremacy)”的追求证明了量子计算机比普通计算机能够更快地做一些事情,但是,却自相矛盾地导致了准量子典型算法的繁荣。 ...

3224
来自专栏CDA数据分析师

谷歌教你学 AI -第一讲机器学习是什么?

CDA字幕组 翻译整理 世界中充满了数据,大量的数据。图片、音乐、文字、电子表格还有视频。而且在短时间内丝毫没有放缓的趋势。机器学习给所有的数据带来意义。 A...

1987
来自专栏全栈数据化营销

数据分析:精准提高商品购买数量和单价

忙于项目和公司的事情,好久没有写关于数据分析的文章,很多关注我的朋友都在催促我更新。其实,一直都有在想写也在纠结写什么内容的文章,刚好最近做了一个关联销售的项目...

1101
来自专栏人工智能头条

掌握 Google 深度学习框架的正确姿势——专访 TensorFlow 贡献者唐源

2303
来自专栏大数据文摘

把可视化从业者的生存现状可视化出来:他们是谁?

2215
来自专栏无原型不设计

线框图?原型图?为何傻傻分不清楚

首先,我们需要搞清楚的一点就是线框图不是真正意义上的原型。许多设计师和产品经理,甚至是经验丰富的设计大牛往往也很容易混肴这些专业术语。什么是线框图?什么是原型...

2967
来自专栏TEG云端专业号的专栏

「专访」Kegokang:往深的钻、广的看,才能更近一步

编者按:Kegokang(康战辉) ,2011年加入腾讯,自毕业以来一直从事与搜索、数据挖掘、广告等业务相关的算法优化工作,目前任职于AI 平台部搜索业务中心,...

7886
来自专栏新智元

【DeepMind&OpenAI】利用人类偏好深度强化学习,机器学会后空翻

【新智元导读】DeepMind 和 OpenAI 合作的新研究,让没有技术经验的人类给强化学习系统提供反馈,从而避免事先为系统指定目标的步骤。在某些情况下,这种...

34312

扫码关注云+社区