据我所知,数据湖解决方案用于存储从原始格式的原始数据到经过处理的数据。不过,我还不能理解(Azure)数据湖中的元数据管理的概念。在数据湖中处理元数据的最佳实践是什么?
是否有任何自动读取元数据的机制(例如,从头文件中读取),如果有,是否有任何方法来查看和编辑此元数据(可能是编程实现的API )?我担心,如果没有适当的管理,“湖”只会变成“数据坟墓”。一种解决方案可能是创建一个自己的数据库,我自己在其中存储每个文件的元数据。还有其他更先进的方法吗?
发布于 2017-03-28 06:01:04
这是一个相当宽泛的问题,我将尽力回答。通常,您会尝试按逻辑区域和可识别的所属团队来组织数据湖存储中的数据。可以在Azure Data Catalog中对数据进行编目,以进行发现和丰富。目前,我们没有任何自动将数据发布到数据目录中的能力。数据的所有者必须手动将其发布到ADC。如果在这一领域有感兴趣的特定功能,请在此处提交并提升它们:https://feedback.azure.com/forums/327234-data-lake
发布于 2019-01-02 18:21:51
Library classification应该被认为是对数据湖中的数据进行排序的最佳实践方法,因为图书馆分类系统将信息/知识/数据排序在不连续的类别中。
从技术上讲,您可以在(file-)名称/ (file-)路径中使用分离的类别信息,或者将其作为头信息或属性包含在文件中。在Azure中,当向Azure Data Catalog中的数据添加标签时,可以额外应用库分类方法。
https://stackoverflow.com/questions/43039000
复制相似问题