前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据探查:让数据分析师羽扇纶巾,谈笑间,樯橹灰飞烟...

数据探查:让数据分析师羽扇纶巾,谈笑间,樯橹灰飞烟...

作者头像
用户7600169
发布2022-04-25 16:01:52
1.2K0
发布2022-04-25 16:01:52
举报
文章被收录于专栏:BigDataplusBigDataplus

背景

有数据分析师曾抱怨:80%时间在清洗数据、加工数据和识别数据,仅有20%时间在做数据分析。面临这种困境的原因,大致有三点:

  • 数据质量有待提高,如存在大量空值、单位不一致、数值范围异常、枚举值格式异常等
  • 数据整体概括信息缺乏,度量信息如最大值、最小值、平均值、汇总值、方差、中位数等等不能直接可见,维度信息如枚举值分布等
  • 元数据管理待完善,如表名称备注,字段类型、描述不准确、口径未统一等等元数据管理混乱或缺乏等等

上述这些问题都会浪费数据分析师大量宝贵时间,降低了数据分析洞察的效率。理想状态应该是让数据分析师拿到数据就能"开箱即用",加速数据分析洞察,及时快速响应提高组织决策能力。

解决数据分析师面临这些困境,可引入数据探查,并与数据质量管理、元数据管理等数据治理等等功能模块整合并持续不断迭代优化,让数据洞察分析更高效。

数据探查是对源数据内容的系统分析和诊断。分析和诊断包括以下几个方面:

  • 字段级
    • 从维度角度分析诊断:维度正确分布信息,含有枚举值个数、内容、分布情况等,还有枚举值格式、内容和长度异常、空值率多少、编码是否统一等数据质量异常问题诊断。
    • 从度量角度分析诊断:最大值、最小值、平均值、汇总值、方差、中位数等分布整体概况,还有单位是否统一,是否存在数值范围异常,数值精度是否损失等异常诊断
  • 表级别
    • 从全表或跨表角度分析,记录数等全表整体分布情况,还有是否存在重复,交叉表数据是否异常诊断等等。

总之,数据探查可协助与数据加工人员提高数据清洗和加工效率,提高数据质量,让数据分析开箱即用到高质量数据,让元数据对数据的描述内容更加完善的展示等多应用场景。

数据探查应用

这里从ETL数据加工、数据分析或数据使用角度等角度来应用数据探查。如ETL工程师在ODS层源数据的数据探查、数据分析师做数据分析时的数据探查或全局元数据管理应用。

ETL数据加工

在ETL开发时,对ODS层源数据或据仓中间层的数据探查,有助于ETL工程师在加工处理数据时,查看对不满足数据质量要求进行数据清洗,如空值率、异常长度、数值范围、格式数据分布、重复率和单位、编码、数据类型不一致等等数据异常清洗和数据加工。

数据加工处理完成后,在数据质量监控系统对可能出现质量问题的表或字段配置监控规则,也可根据产出数据优先级别配置强规则或弱规则(是否熔断执行任务规则),对数据质量全链路监控,保证数据质量持续不断迭代。

数据分析

有助于数据分析师识别数据,了解全局数据概况,常用的分析指标如度量有最大值、最小值、平均值、汇总值、方差、中位数;维度有枚举值、枚举值数值或数据分布。

元数据管理

元数据是对潜在信息的信息,是关于数据的更高层次抽象,是对数据的描述。

数据探查结果属于对数据的抽象,了解和数据总体概括。元数据管理模块展示表的每列数据的字段名、维度和度量不同字段类型等探查结果,如下:

  • 字符串类型(string)和日期型(date):展示字段个数、唯一值、有效值、空值率等基本信息和重复值TopN。
  • 数字型(integer/float):展示字段个数、唯一值、零值、空值率等基本信息、重复值TopN、统计信息、以及直方图。
  • 布尔型(boolean),其中字符型中的true/false、数字型中的0/1会被识别为布尔型:展示字段个数、唯一值、零值、空值率等基本信息、重复值TopN以及饼图分布。
  • 混合型:展示字段个数、唯一值、有效值、空值率等基本信息和重复值TopN以及各数据类型占比的饼图。

技术实现方案

实现数据探查出结果在元数据管理模块的应用有三种方案:一是数据分析或应用时点击探查按钮即时计算当前表的探查结果展示;二是利用计算集群空闲时大批量计算;三是前面两种方案的结合,展示当前探查结果更新时间戳。前两种方式各有利弊,第三种方案较好既可以充分利用集群的计算资源,又可以保证数据全或大部分探查结果覆盖,还可以数据使用根据需要即时更新数据探查结果。实现思路如下:

  • 首先,数据标准严格执行,字符类型和数据类型的字段数据类型合理准确使用。这样程序才能智能识别哪些维度、哪些是度量。
  • 其次,根据上述数据标准字段数据类型,智能生成上述数据探查指标的SQL逻辑片段,通过整合SQL片段片段生成完成的批量优化SQL脚本。
  • 最后,数据质量检测系统集群空闲状态时T+1更新,大批量对数据进行探查。执行程序保存探查结果,数据使用者可根据实际情况即时更新表的探查结果。

数据探查与数据质量监控系统的配合即便于数据质量迭代,又便于数据分析或使用者对数据全局概况的了解。高质量数据释放了数据分析清洗、加工数据大部分时间,对数据全局认识,减少识别数据的时间,让数据分析师更专注于数据分析洞察工作,提高产出效率。

总结

本篇文章从数据探查是什么和技术实现方案,其中包括数据探查大致包含哪些探查指标等,还有数据探查与数据质量管理、元数据管理和数据应用或使用等之间整合。

上述是对批数据的数据探查,其在实时数据探查功能同样可以在实时数据仓库和实时标签等实现。数据探查是元数据管理内容的补充,对数据内容的描述更加准确和完善,让数据分析师或数据使用者从容地简单地使用数据。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BigDataplus 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
批量计算
批量计算(BatchCompute,Batch)是为有大数据计算业务的企业、科研单位等提供高性价比且易用的计算服务。批量计算 Batch 可以根据用户提供的批处理规模,智能地管理作业和调动其所需的最佳资源。有了 Batch 的帮助,您可以将精力集中在如何分析和处理数据结果上。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档