最近我发现了数据湖世界,我计划用ADL建立一个数据湖。我不确定的一件事是数据湖应该如何跟踪随时间变化/处理与源不同版本的更改。
我遇到过这样的站点,声称数据湖按原样提供数据,其他状态是数据应该是时间戳,或者文件夹结构应该反映时间戳。
不管怎样,有什么最佳做法吗?
干杯!
发布于 2019-07-26 18:28:38
数据湖中通常有不同的区域。这是一个对公共区域的良好解释。在“原始数据”区域中,数据通常从源数据保持不变。它可能是记录自上次加载以来更改的增量负载,也可能是数据源实体的完整副本。这通常是您将看到每个实体的时间戳文件夹的地方。例如,您可能具有以下文件夹结构。
原始数据
Organizational Unit
Subject Area
Original Data Source
Object
Date Loaded
File(s)
用户通常不查询原始区域。它是数据的历史档案。
用户通常会查询策划区。此区域通常包含来自原始数据的子集,这些数据已被转换以满足用户需求。通常,这包含实体当前外观的副本,忽略了旧版本,因为这是分析人员/数据科学家希望看到的,或者是需要输入另一个从数据池中获取数据的应用程序。您可以找到一个很好的解释原始和策划区这里。
因此,您可能有跟踪更改的时间戳数据以及当前快照。您可能已经读到的是,数据湖应该允许您在特定的时间重新创建实体的样子,这可以在Raw中完成。但是,其他区域满足了组织的数据需求,无论是当前的、所有的历史记录,还是特定日期的快照。
https://stackoverflow.com/questions/57185155
复制相似问题