我是数据治理的新手,如果你问我缺少一些信息,请原谅。
目标
我们正在Azure平台上为中型电信公司从头开始建立数据湖和企业数据仓库。我们正在使用ADLS gen2、Databricks和Synapse进行我们的ETL处理、数据科学、ML和QA活动。
我们已经有大约一个输入表和25 TB/年。未来我们还会期待更多。
业务有强烈的需求倾向于云无关的解决方案。尽管如此,他们仍然可以使用Databricks,因为它可以在AWS和Azure上使用。
问题
对于我们的堆栈和需求,什么是最好的数据治理解决方案?
我的工作间
我还没有使用任何数据治理解决方案。我喜欢AWS数据湖解决方案,因为它提供了现成的基本功能。Azure数据目录已经过时了,因为它是不支持ADLS gen2。
在快速搜索之后,我找到了三个选项:
目前,我甚至不确定第三个选项是否完全支持我们的Azure堆栈。此外,它将有更大的发展(基础设施定义)的努力。那么,我是否有任何理由去调查游骑兵/阿特拉斯系统的方向?
为什么更喜欢普里瓦克拉而不是因穆塔,反之亦然?
还有其他的选择我应该评估吗?
已经做了什么
从数据治理的角度来看,我们只做了以下几件事:
要做的事
发布于 2020-07-12 15:20:42
我目前正在探索Immuta和Privacera,所以我还不能详细评论这两者之间的差异。到目前为止,Immuta以其优雅的基于政策的设置给我留下了更好的印象。
不过,有一些方法可以解决您前面提到的一些问题,而无需购买外部组件:
1.安全
2.世系
3.数据质量
4.数据生命周期管理
然后由您在幕后实现日志记录和数据加载。此外,您还可以跳过基于保留时间的sensitive_columns (都可以在dataset信息表中找到)。需要相当多的努力
希望你能在我的回答中找到有用的东西。知道你走了哪条路会很有趣的。
发布于 2020-05-12 22:16:53
为了更好地理解您为Azure上的数据治理引用的选项2,这里有一个如何演示RLS在数据库中的应用经验的教程;一个相关的数据库视频演示和其他数据治理教程。
完全披露:我的团队为Immuta的数据工程师提供内容,我希望这能帮助您节省一些研究时间。
发布于 2020-12-04 17:52:34
Azure权限是一种新服务,它将很好地满足您的数据治理需求。目前(2020-12-04)正在进行公开预览。它包含在您的问题中查看的特性,例如数据沿袭,并与您正在使用的Azure服务(Synapse、Databricks、ADLSg2)很好地工作。
权限不是云无关的解决方案。它公开了Apache,这样就可以在任何云中运行一些核心能力和集成。我仍然将权限归类为Azure特定的解决方案。
权限可以管理混合数据,例如,前提数据或其他云。这样,您的数据在哪里是不可知的。如果您需要在Azure之外拥有一些数据或用例,权限也可以管理这些数据资产。
我看到数据质量特性在权限路线图上,并将在以后提供。其他治理主题也将在稍后讨论,例如政策。
关于权限的更多信息,在这里:https://azure.microsoft.com/en-us/services/purview/
https://stackoverflow.com/questions/61740406
复制相似问题