你了解你的数据吗

0x00 前言

你了解你的数据吗?

前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。

数据从业者有很多,比如说数据开发工程师、数据仓库工程师、数据分析师、数据挖掘工程师、数据产品经理等等,不同岗位的童鞋对数据的理解有很大的不一样,而且侧重点也不同。那么,是否有一些数据相关的基础知识是所有数据从业者都值得了解的?不同的岗位对数据的理解又有多大的不同?数据开发工程师是否有必要去了解数据分析师是如何看待数据的?

本系列博客会尝试去学习、挖掘和总结这些内容,在数据的海洋中一起装x一起飞。

0x01 数据?数据!

开篇先上几个问题:

你知道自己的系统数据接入量是多少吗?

你知道数据的分布情况吗?

你知道自己常用的数据有什么隐藏的坑吗?

如果你对前面说的问题有不太了解的,那么我们就可以在以后的内容中一起愉快地交流和探讨。如果前面说的问题你的回答都是 “Yes”,那么我还是会尝试用新的问题来留住你。比如说:

既然你知道系统的数据接入量,那你知道每天的数据量波动吗?波动量在多大范围内是正常情况?

你知道的数据分布情况是什么样子的?除了性别、年龄和城市的分布,还有什么分布?

在偌大的数据仓库中,哪些数据被使用最多,哪些数据又无人问津,这些你了解吗?

在最常用的那批数据中,有哪些核心的维度?有相同维度的两个表之间的数据口径是否也一样?

假设你对上面的问题有稍许困惑或者感兴趣,我们正式开始对数据的认知之旅。

0x02 概览

现在,我们粗略地将数据从业者分为数据集群运维、数据开发工程师、数据仓库工程师、数据分析师、数据挖掘工程师和数据产品经理,这一小节先起一个引子来大致说明不同岗位对数据的了解是不同的,后文会详细地说明细节内容。

首先要说明的是,在工作中数据相关的职位都是有很多重合的,很难一刀切区分不同岗位的职责,比如说数据开发工程师本身就是一个很大的概念,他可以做数据接入、数据清洗、数据仓库开发、数据挖掘算法开发等等,再比如说数据分析师,很多数据分析师既要做数据分析,又要做一些提数的需求,有时候还要自己做各种处理。

公司的数据团队越大,相应的岗位职责就会越细分,反之亦然。在这里我们姑且用数据开发工程师和数据仓库工程师做对比来说明不同职责的同学对数据理解的侧重点有什么不同。我们假设数据开发工程师侧重于数据的接入、存储和基本的数据处理数据仓库工程师侧重于数据模型的设计和开发(比如维度建模)

数据开发工程师对数据最基本的了解是需要知道数据的接入状态,比如说每天总共接入多少数据,整体数据量是多大,接入的业务有多少,每个业务的接入量多大,多大波动范围是正常?然后还要对数据的存储周期有一个把握,比如说有多少表的存储周期是30天,有多少是90天?集群每日新增的存储量是多大,多久后集群存储会撑爆?

数据仓库工程师对上面的内容也要有一定的感知力,但是会有所区别,比如说,数据仓库工程师会更关注自己仓库建模中用到业务的数据状态。然后还需要知道终点业务的数据分布,比如说用户表中的年龄分布、性别分布、地域分布等。除此之外还应关注数据口径问题,比如说有很多份用户资料表,每张表的性别取值是否都是:男、女、未知,还是说会有用数值类型:1男、2女、0未知。

然后数据开发工程师对数据异常的侧重点可能会在今天的数据是否延迟落地,总量是否波动很大,数据可用率是否正常。

数据仓库工程师对数据异常的侧重点则可能是,今天落地的数据中性别为 0 的数据量是否激增(这可能会造成数据倾斜),某一个关键维度取值是否都为空。

上面的例子可能都会在一个数据质量监控系统中一起解决,但是我们在这里不讨论系统的设计,而是先有整体的意识和思路。

0x03 关于内容

那么,后续博客的内容会是什么样子的呢?目前来看,我认为会有两个角度:

抛开岗位的区分度,从基本到高级来阐释对数据的了解。比如说数据分布,最基本的程度只需要知道每天的接入量;深一点地话需要了解到其中重点维度的分布,比如说男女各多少;再深一点可能要需要知道重点维度的数据值分布,比如说年龄分布,怎样来合理划分年龄段,不同年龄段的比例。

每个岗位会关注的一些侧重点。这点笔者认为不太好区分,因为很多岗位重合度比较高,但是笔者会尝试去总结,同时希望大家一起来探讨这个问题。

0xFF 总结

本篇主要是抛出一些问题,后续会逐步展开地细说数据从业者对数据理解。其实最开始我想用“数据敏感度”、“数据感知力”这类标题,但是感觉这种概念比较难定义,因此用了比较口语化的标题。

笔者认为,在数据从业者的职业生涯中,不应只有编程、算法和系统,还应有一套数据相关的方法论,这套方法论会来解决某一领域的问题,即使你们的系统从Hadoop换到了Spark,数据模型从基本的策略匹配换到了深度学习,这些方法论也依旧会伴你整个职业生涯。因此这系列博客会尝试去学习、挖掘和总结一套这样的方法论,与君共勉。

本文来自企鹅号 - 木东居士媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

把可视化从业者的生存现状可视化出来:他们是谁?

2215
来自专栏ATYUN订阅号

【学术】量子算法与计算机对抗,胜者究竟是谁?

我们对“量子霸权(quantum supremacy)”的追求证明了量子计算机比普通计算机能够更快地做一些事情,但是,却自相矛盾地导致了准量子典型算法的繁荣。 ...

3224
来自专栏逸鹏说道

携程:机器学习在酒店服务领域的实践

在携程技术中心推出的线上公开课程[携程技术微分享]上,来自携程酒店研发的BI经理潘鹏举,介绍了如何借助大数据和算法,通过机器学习去克服酒店服务行业挑战,给用户带...

3458
来自专栏新智元

【人工智能的架构趋势】AI专有芯片版百度大脑首次解密

在今年9月份召开的百度世界大会上,百度高级副总裁王劲在接受采访时曾透露,百度已经打造了FPGA版的百度大脑,性能远超此前的版本。“这在当年是百度的一个秘密项目,...

3568
来自专栏人工智能头条

掌握 Google 深度学习框架的正确姿势——专访 TensorFlow 贡献者唐源

2303
来自专栏人工智能

学了这么久机器学习,你真的了解它的概念吗?

引言 我们曾在之前的快讯里提到,Dataversity 最近上线了一个 What is 系列,介绍了数据科学相关的多个概念,之前我们曾介绍了大数据与数据科学(可...

2056
来自专栏CDA数据分析师

谷歌教你学 AI -第一讲机器学习是什么?

CDA字幕组 翻译整理 世界中充满了数据,大量的数据。图片、音乐、文字、电子表格还有视频。而且在短时间内丝毫没有放缓的趋势。机器学习给所有的数据带来意义。 A...

1987
来自专栏PaddlePaddle

深度学习行业中的各类岗位概览

后端(RD)工程师:让算法工程师产出的代码落到业务中,适用于工业调用(比如配置数据库和设定便捷的交互)

1073
来自专栏Android群英传

数据可视化是如何被创造出来的

911
来自专栏用户3246163的专栏

[脑书笔记]《整体性学习》4-知识拓展应用技术

这篇脑书继续讲整体性学习的第二部分整体性学习的技术,在《整体性学习》1里面在谈到信息进入大脑的顺序是,获取,理解,拓展,纠错和应用。这篇脑书笔记主要针对这5个步...

813

扫码关注云+社区