当我们使用GCP云存储实现数据湖,并使用Dataproc、Dataflow等云服务进行数据处理时,我们如何在GCP中生成数据沿袭报告?
发布于 2019-03-25 08:59:14
Google Cloud Platform没有提供无服务器的数据谱系。
相反,您可能希望在Google Cloud Dataproc上安装Apache Atlas,并将其用于数据沿袭。
发布于 2020-11-19 13:22:11
Google Cloud Data Fusion在企业版中支持谱系。您可以使用DF来构建和编排管道,并使用Dataproc和Dataflow作为运行它们的容量。CDF谱系简介可在以下文档中找到:https://cloud.google.com/data-fusion/docs/tutorials/lineage
如果您不使用CDF功能,那么仅仅使用谱系就有点夸张了。Google Cloud Data Catalog中的谱系功能将是最佳的,至少在我的许多用例中是这样。不幸的是,目前CDC不支持谱系。我希望它在产品路线图上,它将在未来支持谱系。
https://stackoverflow.com/questions/55000865
复制相似问题