主数据服务和数据质量服务如何适应现有的BI堆栈?
在SSIS中有一个模糊查找和模糊分组组件。因此,我尝试比较: SSIS v MDS/DQS。
据我所知,如果您正在事务基础上处理记录,例如终端用户更新单个记录,MDS/DQS是首选的解决方案。如果将记录作为批处理(即批处理)处理,SSIS是首选解决方案。对吗?
发布于 2015-06-12 20:19:44
所有这三个工具都有非常不同的功能。
SSIS是一个ETL (即提取、转换、加载)工具。是的,它用于批量处理数据,也用于多个数据流的并行处理。在BI的情况下,它的主要工作是填充各种数据仓库表。它们可能是暂存表,也可能是实际的仓库表。它还可以用于许多需要转换和移动数据的非BI环境中。模糊查找和模糊分组组件预先日期MDS和DQS是相当有限的,但在某些情况下可能仍然有用,或者如果不打算采用DQS。
MDS是一种数据集成工具。这样做的目的是在一个组织有多个具有重叠数据的事务数据库的情况下使用它,并且需要将这些数据整合在一起并进行集成。这意味着设置规则以确定如何匹配来自不同系统的数据。它还可用于将集中式数据推回事务性系统,以解决不同系统中数据不同的情况。这是一种在一个集中的地方,或者在所有系统中获取“真理的一个版本”的尝试。
DQS是一种数据质量工具。它提供了允许开发人员和数据管理人员一起建立规则以解决数据质量问题的功能。虽然这些规则可能有助于解决数据集成问题,但DQS并不局限于清除用于匹配数据集的列。例如,可以设置规则将某个列中的值替换为另一个值--因此,在系统中可能会产生一个常见的数据输入错误。当注意到该问题时,可以设置一个规则,以便始终用另一个字符串替换该特定字符串。
SSIS可以与MDS和DQS一起使用,在需要其中一个以上功能的情况下。下面是微软教程,它介绍了如何与其他人一起使用它们。
当然,您可能会选择自己实现主数据功能--这不是一个新概念,MDS只是微软半自动的主数据产品。对于许多组织来说,数据仓库(或至少一个层)是主数据的存储。同样,DQS只是一个数据质量工具,但是您可以选择设置自己的数据质量流程。如果您使用的是Microsoft堆栈,那么您自己做的越多,使用SSIS的可能性就越大。
https://softwareengineering.stackexchange.com/questions/284968
复制相似问题