你了解你的数据吗(筑基篇):核心维度分布和数据口径

0x00 前言

刚入行做数据开发的时候经常听企业导师讲,你要有数据的意识,不能只知道闷着头来一个需求接一个,要从业务的角度来理解数据,这样你的职业线才能更长。

本篇不会分享和业务强相关的数据 Sense,但是会引入一些各种业务都会涉及的最基本内容:

  1. 数据核心维度分布:核心业务维度分布,主要是指像年龄、地域、性别之类的维度分布。
  2. 数据口径:数据口径可以理解为同名字段在不同表中的取值范围。

0x01 数据核心维度分布

核心维度分布主要是指数据中那些比较重要的列的内容分布,比如说用户最基本的年龄、性别和城市信息,这是最常用的数据分布,再引申一点的话会涉及到一些业务内容,比如说各省份的人的订单情况、不同时间段男女活跃信息对比,等等。如果有用户画像表的话还应包括各种画像中的维度分布。

因此,我们来做一个大概的划分的话,那就是三部分内容:1.基础资料;2.业务行为;3.用户画像。这三部分能帮助我们来理解用户是什么样子的?更好的懂业务,能促进更深入地理解数据。

上图是我画的一个大致的图,具体的内容应该是自己根据业务来详细的划分和填充。这些数据内容,你了解吗?不了解的话,就赶快整理一下吧。

0x02 数据口径

关于数据口径,很难给它一个准确权威的定义,我们不妨举几个例子来说明:

  1. 假设性别字段在表A中的取值是0、1、2(未知、男、女),在表B中取值是0、1、2(男、女、未知),这可能是从不同业务方接入的数据,现在需要将两份数据合并,来算整体的男女比例,如果你不知道两个表的数据口径,会出现什么样的结果?
  2. 假设你有很多数据都有ip这一个字段,ip为空的时候默认值是0,如果新接入一份数据,它的ip为空的默认值是null或者是-1,你之前的程序能很好地处理完成吗?
  3. 然后数据粒度的问题,同样的年龄字段,在表A中是具体的年龄数值,在表B中是0-20、20-30这样的数值,你直接使用会是什么情况?

上面就是我想表达的关于数据口径的一些例子,下面整理了一份大致的思维导图可供参考。

关于数据口径的问题,如何避免和解决这些问题可能就是一行代码或者是提前约定好规则就能搞定的,但是我们要先有这种意识,有了这样的意识,我们在接入和处理数据的时候就能提前预知问题或者出现问题了能快速定位和解决。

0xFF 总结

本篇的内容是希望数据小伙伴能从相对贴近数据或者说是贴近业务的层面上来理解数据。

数据的核心维度分布能让你对自己的数据有更全局观地把控,数据口径的问题能让你从更微观地角度来理解数据,以便更好地去处理数据。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

OpenAI新突破:使机器人操纵物体如人类一样灵活

在即将发表的一篇论文“Dexterous In-Hand Manipulation”中,OpenAI研究人员描述了一种系统,该系统使用强化模型,AI通过反复试验...

9620
来自专栏新智元

MIT 新系统用机器学习实现机器学习,合成数据较好代替真实数据

【新智元导读】使用真实数据所带来的隐私问题极大地阻碍了数据科学的发展。MIT 的本篇论文描述了一种自动创建合成数据的机器学习系统,这种合成数据与真实用户所产生的...

38750
来自专栏华章科技

机器学习工作职位需要的7项技能

机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法...

9220
来自专栏ATYUN订阅号

强化学习简介(第一部分)

强化学习是机器学习的一个方向,智能体通过执行某些操作并观察从这些操作中获得的奖励或者结果来学习在环境中行为。

16230
来自专栏AI科技大本营的专栏

如何将深度学习与你正在做的事情相结合?

作者 | 李嘉璇 文章来源Gitchat,AI科技大本营合作发布,点击「阅读原文」查看交流实录 前言 人工智能是目前各行各业最火热的技术,如果说前两年是『互联...

385110
来自专栏量子位

DeepMind说机器推理水平能超人类,现在有人把代码搞出来了

问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这事儿有点快。 前天,DeepMind发布两篇新论文,探讨了深度神经网络利用非结构化数据进行复杂关系...

38760
来自专栏ATYUN订阅号

光子量子处理器Xanadu团队:探索量子神经网络

31940
来自专栏量子位

Caffe2正式发布!新框架有何不同?贾扬清亲自解答

王新民 若朴 发自 凹非寺 量子位 报道 | 公众号 QbitAI ? △ 图左为Caffe2作者贾扬清 今天凌晨召开的F8大会上,Facebook正式发布C...

45760
来自专栏机器之心

业界 | 英伟达官方解读:Volta Tensor Core GPU实现AI性能新里程碑

19650
来自专栏达观数据

达观数据推荐系统实践—实时演算用户动态数据 提升运营效率

本文曾在infoq大数据微信群和数据猿直播平台上进行过分享,是对分享内容最直观的表达,同时对推荐系统架构和算法解释的也很详尽。 随着移动互联网技术的迅猛发展、互...

64770

扫码关注云+社区

领取腾讯云代金券