我们的组织目前正在构建一个新的数据仓库。我们实际上能够使用从DW社区借来的一些技术,例如ETL处理来整合数据,“金巴尔”风格的反规范化维度等。总体而言,数据仓库对我们的组织来说仍然是相当新的,但我们正在学习这些概念。
问题:我们有多个数据来源,而事实来源往往相互冲突。例如,我们有一个Master person Index,在ETL过程中,我们使用基于分数的匹配算法将入站人员与现有人员进行匹配,因此即使入站记录不完全匹配,我们也可以基于邮政编码半径等其他内容进行评分。我知道数据仓库的主要思想之一是保存任何事实的运行历史,我们