来自维基,
数据沿袭被定义为一个数据生命周期,它包括数据的来源及其随时间移动的位置。它描述了数据在经历不同的过程时发生了什么。它有助于提供对分析管道的可见性,并简化对错误来源的跟踪。
数据起源记录了影响感兴趣数据的输入、实体、系统和过程,有效地提供了数据及其来源的历史记录。
似乎这两个概念都在谈论数据来自哪里,但我仍然对其中的差异感到困惑。这两个概念是相同的吗?如果它们是不同的,有人可以分享一个例子吗?
谢谢,
发布于 2017-04-13 15:36:14
根据我们的经验,data provenance仅为业务用户提供了系统的高级视图,因此他们可以大致导航其数据来自何处。它是由各种建模工具或简单的自定义表格和图表提供的。Data lineage是一个更具体的术语,它包括两个方面-业务(数据)谱系和技术(数据)谱系。业务谱系图片数据在业务术语级别上流动,它是由Collibra、Alation等解决方案提供的。技术数据谱系从实际的技术元数据创建,并跟踪最低级别的数据流-实际的表、脚本和语句。MANTA或Informatica Metadata Manager等解决方案提供了技术数据谱系。
发布于 2018-12-20 23:07:46
数据来源是,
数据谱系(什么是谱系,它的历程,它的历史,它是从哪里开始的,它是如何产生的,它是如何随着时间的推移而变化的,它去过哪里,它经历过的系统,任何损失或收益)(例如,面向数据的元数据)
加上
影响数据的输入、实体、系统和过程(即面向过程),可用于复制数据。
发布于 2019-01-10 11:02:45
请参阅维基百科上关于起源的文章:https://en.wikipedia.org/wiki/Provenance#Science中的这一节。它链接到关于起源的学术和行业工作的集合。
简明扼要地回答您的问题:一般来说,没有足够的已知上下文来区分数据谱系和数据来源。在特定的上下文中,您可以查找或创建特定的或可能不同的定义。
https://stackoverflow.com/questions/43383197
复制相似问题