首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据治理案例 | 某大型集成电路企业数据质量管理实践

数据治理案例 | 某大型集成电路企业数据质量管理实践

原创
作者头像
数据狗忙忙忙
发布2022-09-14 13:43:01
8650
发布2022-09-14 13:43:01
举报
文章被收录于专栏:数据狗说事儿数据狗说事儿

项目背景

某大型集成电路企业是一家集芯片设计、工艺研发、晶圆生产与测试、销售服务于一体的半导体存储器企业,为全球提供先进的存储产品和解决方案,广泛应用于移动通信、计算机、数据中心和消费电子领域。该企业在数据管理系统和研制管理体系的控制下,设计、工艺、制造、试验、售后服务等环节都产生了大量的数据。在管理信息化、工程信息化的建设过程中,为减少信息孤岛,数据集成与共享不可逾越,不同系统间的数据正确性、一致性变得尤为重要。

当前该企业数据资源涉及7000-8000张数据库表,存储于不同的关系型数据库以及分布式数据库中,每天的增量数据在1-2T左右,在ETL过程中需要对数据的及时性、完整性和一致性进行校验。同时需要对互相有关联的业务数据进行业务规则校验,各式各样复杂的业务规则逻辑需要依靠业务骨干的工作积累和经验反复推敲才能落地,单靠技术部门的投入难以达到最好的效果。

综上,该企业需要一款独立于业务系统之外的数据质量管理平台,一方面满足技术部门长效的数据质量管控,另一方面能够形成业务精英为主、技术精英为辅的业务数据梳理体系。

痛点难点

该集成电路企业在发展过程中积累了大量的项目、客户、设备、产品等数据,随着数据共享以及决策的需求,以及数据使用范围的扩大,在使用过程中发现了大量数据问题,归纳如下:

1、需支持多样化的数据来源

当前业务数据存储在不同类型的数据库中,包含Oracle/Mysql/SQLServer/Postgresql/Hive/HDFS/Hbase/Kudu/Vertica等,所选平台需要具备多种数据源的接入机制,并能够基于后续的业务发展,适用更多的数据来源。

2、需支持繁简不一的规则配置

在数据质量管控过程中,需要进行各种各样的质检规则配置,简单的如空值校验、字段类型校验、值域校验、及时性校验等,复杂涉及多表关联的逻辑公式校验、完整性校验、一致性校验等,所选平台需要支持多种规则的校验设置,同时还要便于技术能力较弱的业务精英进行操作。

3、需支持海量数据的处理应对

面对海量数据的质检,不仅是数据量大,同时还面临多个质检工作的并发。一方面需要在规定时间内完成所有检验,另一方面给还需要及时将结果反馈给数据管理者。所选平台需要具备大数据量的处理能力、支持多个质检进程并发,同时还要考虑后续数据量越来越大,接入的数据源越来越多的发展趋势,能够支持集群中节点的灵活扩展,满足长期的数据质检需要。

看似表面的数据问题其实会对业务带来严重的影响,数据不真实、不准确、不共享,增加企业经营风险、管理难度和复杂度,跨组织信息共享程度低、资源难于整合。如何更好地管理和控制数据,做好数据质量平台建设,成为企业迫在眉睫的任务。

建设内容

本项目的建设内容就是从数据接入、转换、应用各个阶段加强数据质量的管控,为集团数仓、数据分析、数据挖掘应用提供标准、可靠的基础数据支撑。

​该企业利用亿信华辰睿治数据治理软件搭建数据质量管理平台,主要用于解决业务系统运行、数据仓库建设及数据治理过程中的数据质量问题。它以标准化的数据质量规范为基础,运用数据挖掘、数据分析、工作流、评分卡、可视化等技术帮助组织建立数据质量管理体系,提升数据的完整性、规范性、及时性、一致性、逻辑性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。

系统主要功能包括质量检查规则管理、绩效管理、工作流管理、质量分析报表查询、质量报告等。

平台架构图
平台架构图

1、单点登录

为满足公司内部的通过统一身份认证平台进行数据质量平台的登录,实现了与认证平台的单点登录集成。

2、质量问题实现短信预警

数据质量平台支持按照配置的质检方案自动的执行质检,质检结果会自动的通过邮件或者短信发送到相关责任人,提醒技术人员及时的处理质量问题。

3、支持多种大数据平台数据源的质检

平台除了支持常见的关系型数据库数据进行质检外,还支持Hive/HDFS/Hbase/Kudu/Vertica等多种大数据库的数据源接入,能够满足公司后续的业务发展,适用丰富的数据类型。

项目价值

该企业数据质量管理平台的建设,满足了公司数据质量管控的需求,实现了数据质量检查的自动执行和问题数据短信预警,大大地提升了业务数据的质量,为公司数仓、数据分析、数据挖掘应用提供标准、可靠的基础数据支撑。客户对于项目整体建设成果非常满意,通过产品的应用,使各业务条线的数据质量问题得到有效管控,简化技术人员的数据质量问题核查的工作难度,同时极大地提升了客户的工作效率。

1)数据质量管理平台提供了可视化的页面就能完成数据质量检查工作,大大降低了数据质检的技术门槛,不仅仅只靠公司数据部门的技术人员来提升数据质量,现在也将业务部门的人员也参与到数据质量提升工作中,形成业务精英为主、技术精英为辅的业务数据梳理体系。

2)数据质量的质检结果实现了短信自动预警,提醒技术人员及时处理质量问题,提升了技术部门的数据质量问题管理效率。

3)随着公司业务数据不断增大,大数据平台的应用不断深入,数据质量平台支持多种基于Hadoop的数据源的接入进行质检,为公司业务的发展和质量管理奠定了基础。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 项目背景
  • 痛点难点
  • 建设内容
  • 项目价值
相关产品与服务
数据万象
数据万象(Cloud Infinite,CI)是依托腾讯云对象存储的数据处理平台,涵盖图片处理、内容审核、媒体处理、AI 识别、文档预览等功能,为客户提供一站式的专业数据处理解决方案,满足您多种业务场景的需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档