建立标准数据对照表

        这是一个真实数据仓库项目中的案例。某公司要建立一个员工数据仓库,需要从多个业务系统集成员工相关的信息。由于历史的原因,该公司现存的四个业务系统中都包含员工数据,这四个业务系统是HR、OA、考勤和绩效考核系统。这些系统是彼此独立的,有些是采购的商业软件,有些是公司自己开发的。每个系统中都有员工和组织机构表,存储员工编号、姓名、所在部门等属性。各个系统的员工数据并不一致。例如,员工入职或离职时,HR系统会更新员工数据,但OA系统的更新可能会滞后很长时间。项目的目标是建立一个全公司唯一的、一致的人员信息库。

我们的思路是利用一系列经过仔细定义的参照表或转换表取代那些所谓硬编码的转换程序。其优点是很明显的:转换功能动态化,并能适应多变的环境。对于建立在许多不同数据源之上的数据仓库来说,这是一项非常重要的基础工作。具体方案如下:

  • 建立标准码表用以辅助数据转换处理
  • 建立与标准值转化有关的函数或子程序
  • 建立非标准值与标准值对照的映像表,或者别名与标准名的对照表。

下面的问题是确定标准值的来源。从业务的角度看,HR系统的数据相对来说是最准确的,因为员工或组织机构的变化,最先反应到该系统的数据更新中。以HR系统中的员工表数据为标准是比较合适的选择。有了标准值后,还要建立一个映像表,把其它系统的员工数据和标准值对应起来。比方说有一个员工的编号在HR系统中为101,在其它三个系统中的编号分别是102、103、104,我们建立的映像表应该与下表类似。

DW条目名称

DW标准值

业务系统

数据来源

源值

员工编号

101

HR

HR库.表名.列名

101

员工编号

101

OA

OA库.表名.列名

102

员工编号

101

考勤

考勤库.表名.列名

103

员工编号

101

绩效

绩效库.表名.列名

104

        这张表建立在数据仓库的模式中,人员数据从各个系统抽取来以后,与标准值映像表关联,从而形成统一的标准数据。映像表被其它源数据引用,是数据一致性的关键,其维护应该与HR系统同步。因此在ETL过程中应该首先处理HR表和映像表。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据和云

招商银行王龙:金融科技银行数据架构设计的13条守则(含PPT)

作者简介:王龙,招商银行数据中心MySQL资深架构师,将MySQL引入招商银行,并从无到有建设MySQL生态,解决了MySQL在银行领域使用的诸多问题。

1145
来自专栏即时通讯技术

达达O2O后台架构演进实践:从0到4000高并发请求背后的努力

达达创立于2014年5月,业务覆盖全国37个城市,拥有130万注册众包配送员,日均配送百万单,是全国领先的最后三公里物流配送平台。 达达的业务模式与滴滴以及Ub...

1133
来自专栏腾讯云数据库(TencentDB)

TXSQL Internals @2018

腾讯云资深架构师王少华日前在 2018 开源数据库论坛(ODF)暨首届MariaDB中国用户者 大会上做了主题为“TXSQL Internals @2018”的...

30116
来自专栏腾讯云数据库(TencentDB)

本地IDC机房数据库容灾解决方案

下文以腾讯云数据库 MySQL为例,介绍如何充分利用腾讯云的优势,减轻DBA的负担,轻松来搭建数据库。

1.1K82
来自专栏PPV课数据科学社区

大数据分析需要把hbase、mysql等数据导入hive吗?

看做什么,如果不需要对数据进行实时处理,那么大部分情况下都需要把数据从hbase/mysql(数据库)“导入”到hive(数据仓库)中进行分析。“导入”的过程中...

3565
来自专栏黑白安全

研究人员发现可公开访问的包含 1100 万条记录的 MongoDB 数据库

安全研究员Bob Diachenko发现了一个可公开访问的MongoDB数据库,其中包含43.5 GB的数据和10.999.535的Yahoo电子邮件地址。除其...

763
来自专栏PPV课数据科学社区

【资讯】SQL/NoSQL两大阵营激辩:谁更适合大数据

目前企业在着手推动大数据项目的过程中,经常会遇到这样一个关键性的决策难题——到底该使用哪种数据库方案?经过综合考量,最终的选项往往只剩下SQL与NoS...

2413
来自专栏杨建荣的学习笔记

分布式关系型数据库RadonDB体验归来

前段时间收到吴老师的邀请,是参加青云QingCloud分布式数据库(RadonDB)的一个技术体验活动,从今天的技术体验来算,收获还是很多的,大家相聊甚...

1194
来自专栏腾讯数据库技术

腾讯新一代企业级云数据库CynosDB(NewCDB)

NewCDB是在CDB十年技术和产品沉淀的基础上诞生的,腾讯云数据库产品在继承中不断完成突破。

7.5K6
来自专栏云加头条

张青林:TXSQL是什么?云计算时代数据库核弹头

腾讯MySQL内核研发专家张青林在腾讯“云+未来”峰会的「开发者专场」做了主题为“TXSQL:云计算时代数据库核弹头”的技术内容分享,本次分享从五个方面介绍TX...

5412

扫码关注云+社区