首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >数据库、Synapse和ADLS gen2的数据治理解决方案

数据库、Synapse和ADLS gen2的数据治理解决方案
EN

Stack Overflow用户
提问于 2020-05-11 22:20:36
回答 3查看 2.3K关注 0票数 5

我是数据治理的新手,如果你问我缺少一些信息,请原谅。

目标

我们正在Azure平台上为中型电信公司从头开始建立数据湖和企业数据仓库。我们正在使用ADLS gen2、Databricks和Synapse进行我们的ETL处理、数据科学、ML和QA活动。

我们已经有大约一个输入表和25 TB/年。未来我们还会期待更多。

业务有强烈的需求倾向于云无关的解决方案。尽管如此,他们仍然可以使用Databricks,因为它可以在AWS和Azure上使用。

问题

对于我们的堆栈和需求,什么是最好的数据治理解决方案?

我的工作间

我还没有使用任何数据治理解决方案。我喜欢AWS数据湖解决方案,因为它提供了现成的基本功能。Azure数据目录已经过时了,因为它是不支持ADLS gen2

在快速搜索之后,我找到了三个选项:

  1. 普里瓦基拉数据库
  2. Immuta数据库
  3. 阿帕奇游侠&阿帕奇地图。

目前,我甚至不确定第三个选项是否完全支持我们的Azure堆栈。此外,它将有更大的发展(基础设施定义)的努力。那么,我是否有任何理由去调查游骑兵/阿特拉斯系统的方向?

为什么更喜欢普里瓦克拉而不是因穆塔,反之亦然?

还有其他的选择我应该评估吗?

已经做了什么

从数据治理的角度来看,我们只做了以下几件事:

  1. 在ADLS中定义数据区域
  2. 对敏感数据应用加密/混淆(由于GDPR的要求)。
  3. 在Synapse和Power BI层实现行级安全(RLS)
  4. 用于记录持久化的内容和时间的自定义审计框架

要做的事

  1. 数据谱系和真理的单一来源。即使从一开始就有4个月的时间,理解数据集之间的依赖关系也是一个痛点。沿袭信息存储在汇流中,很难在多个地方进行维护和不断更新。即使现在,它在一些地方已经过时了。
  2. 安全系统。将来,业务用户可能会在Databricks笔记本中做一些数据探索。我们需要数据库的RLS。
  3. 数据生命周期管理。
  4. 也许其他数据治理相关的东西,如数据质量,等等。
EN

回答 3

Stack Overflow用户

发布于 2020-07-12 15:20:42

我目前正在探索Immuta和Privacera,所以我还不能详细评论这两者之间的差异。到目前为止,Immuta以其优雅的基于政策的设置给我留下了更好的印象。

不过,有一些方法可以解决您前面提到的一些问题,而无需购买外部组件:

1.安全

  • 对于RLS,请考虑使用表ACL,并且只允许访问某些Hive视图。
  • 要访问ADLS中的数据,请查看启用密码通过集群。不幸的是,您将禁用Scala。
  • 您仍然需要在Azure Data 2上设置权限,这对于授予现有子项的权限来说是一种糟糕的体验。
  • 请避免使用列/行子集创建数据集副本,因为数据复制从来不是一个好主意。

2.世系

3.数据质量

  • 到目前为止,研究,但是有一些很好的预定义数据质量函数。
  • 在许多项目中,我们最终编写了集成测试,检查从青铜(原始)到银(标准化)之间的数据质量。没什么稀奇的,纯PySpark。

4.数据生命周期管理

  • 一种选择是使用本地数据湖存储生命周期管理。在Delta/Parquet格式之后,这不是一个可行的替代方案。
  • 如果使用Delta格式,则可以更容易地应用保留或伪匿名。
  • 第二个选项,假设您有一个包含所有数据集(dataset_friendly_name、路径、保留时间、区域、sensitive_columns、所有者等)信息的表。您的Databricks用户使用一个小包装器来读/写: DataWrapper.Read("dataset_friendly_name") DataWrapper.Write("destination_dataset_friendly_name")

然后由您在幕后实现日志记录和数据加载。此外,您还可以跳过基于保留时间的sensitive_columns (都可以在dataset信息表中找到)。需要相当多的努力

  • 您可以将此表扩展为更高级的模式,添加关于管道、依赖关系等的额外信息(请参阅2.4)

希望你能在我的回答中找到有用的东西。知道你走了哪条路会很有趣的。

票数 3
EN

Stack Overflow用户

发布于 2020-05-12 22:16:53

为了更好地理解您为Azure上的数据治理引用的选项2,这里有一个如何演示RLS在数据库中的应用经验的教程;一个相关的数据库视频演示和其他数据治理教程

完全披露:我的团队为Immuta的数据工程师提供内容,我希望这能帮助您节省一些研究时间。

票数 2
EN

Stack Overflow用户

发布于 2020-12-04 17:52:34

Azure权限是一种新服务,它将很好地满足您的数据治理需求。目前(2020-12-04)正在进行公开预览。它包含在您的问题中查看的特性,例如数据沿袭,并与您正在使用的Azure服务(Synapse、Databricks、ADLSg2)很好地工作。

权限不是云无关的解决方案。它公开了Apache,这样就可以在任何云中运行一些核心能力和集成。我仍然将权限归类为Azure特定的解决方案。

权限可以管理混合数据,例如,前提数据或其他云。这样,您的数据在哪里是不可知的。如果您需要在Azure之外拥有一些数据或用例,权限也可以管理这些数据资产。

我看到数据质量特性在权限路线图上,并将在以后提供。其他治理主题也将在稍后讨论,例如政策。

关于权限的更多信息,在这里:https://azure.microsoft.com/en-us/services/purview/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61740406

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档