专栏首页arxiv.org翻译专栏创建GoldMEDAL:对数据湖通用元数据建模的新贡献(CS DB)

创建GoldMEDAL:对数据湖通用元数据建模的新贡献(CS DB)

大数据的兴起使数据开发实践发生了革命性的变化,并导致了新概念的出现。其中,数据湖已经成为可以通过各种方法进行分析的大型异构数据存储库。高效的数据湖需要一个元数据系统来解决处理大数据时出现的许多问题。因此,数据湖元数据模型的研究是目前一个活跃的研究课题,并就此提出了许多建议。然而,现有的元数据模型要么是为特定的用例量身定做的,要么是不够通用的,无法管理不同类型的数据湖,包括我们之前的模型奖章。在本文中,我们将奖章的概念推广到一个新的元数据模型中,称为goldMEDAL。此外,我们还比较了GoldMEDAL和最新的针对通用性的最新元数据模型,并表明我们可以用goldMEDAL的概念再现这些元数据模型。作为概念的证明,我们还通过展示三个不同的用例来说明goldMEDAL允许设计各种数据湖。

原文题目:Coining goldMEDAL: A New Contribution to Data Lake Generic Metadata Modeling

原文:The rise of big data has revolutionized data exploitation practices and led to the emergence of new concepts. Among them, data lakes have emerged as large heterogeneous data repositories that can be analyzed by various methods. An efficient data lake requires a metadata system that addresses the many problems arising when dealing with big data. In consequence, the study of data lake metadata models is currently an active research topic and many proposals have been made in this regard. However, existing metadata models are either tailored for a specific use case or insufficiently generic to manage different types of data lakes, including our previous model MEDAL. In this paper, we generalize MEDAL's concepts in a new metadata model called goldMEDAL. Moreover, we compare goldMEDAL with the most recent state-of-the-art metadata models aiming at genericity and show that we can reproduce these metadata models with goldMEDAL's concepts. As a proof of concept, we also illustrate that goldMEDAL allows the design of various data lakes by presenting three different use cases.

原文链接:https://arxiv.org/abs/2103.13155

原文作者:Etienne Scholly (ERIC), Pegdwendé Sawadogo (ERIC), Pengfei Liu (ERIC), Javier Alfonso Espinosa-Ovied

我来说两句

0 条评论
登录 后参与评论

相关文章

  • CNCC 颁奖晚宴圆满结束,看各大奖项花落谁家 | CNCC 2018

    大会次日,在结束了上午九大主题报告,下午几十个技术论坛之后,迎来了大会重磅环节——CCF 颁奖晚宴,CCF 秘书长杜子德作为主持人,在大家享受珍馐美味时,将晚宴...

    AI科技评论
  • 2019年社零行业数据统计与投资建议

    2019年12月CS商贸零售行业上涨5.42%,与上年同期相比提振9.44pct,但跑输大盘1.58pct。12月份中信一级30个行业均呈上涨状态,市场表现较为...

    庄帅
  • 中科大吴枫获IEEE CAS最高荣誉奖项,11位学者获ACM四大技术奖项

    5 月 24 日,IEEE 电路与系统(CAS)学会将 2021 年度 IEEE CAS Mac Van Valkenburg 奖授予中国科学技术大学吴枫教授,...

    机器之心
  • 万亿级!腾讯大数据组件TubeMQ正式开源

    近日,一年一度的国际开源顶会ApacheCon 2019在美国举办,正值 Apache 软件基金会(Apache Software Foundation,ASF...

    技术美学
  • 腾讯作为ApacheCon2019主会唯一受邀中国企业亮相谈开源

    近日,一年一度的国际开源顶会ApacheCon 2019在美国举办,正值 Apache 软件基金会(Apache Software Foundation,AS...

    腾讯开源
  • 拥抱云原生,数据湖加速器 GooseFS 助力 Fluid 数据缓存实现

    数据湖加速器 GooseFS 是由腾讯云推出的高性能、高可用、弹性的分布式缓存方案。依靠对象存储(Cloud Object Storage,COS)作为数据湖存...

    云存储
  • 拥抱云原生,数据湖加速器 GooseFS 助力 Fluid 数据缓存实现

    数据湖加速器 GooseFS 是由腾讯云推出的高性能、高可用、弹性的分布式缓存方案。依靠对象存储(Cloud Object Storage,COS)作为数据湖存...

    云存储
  • 从图灵奖看人工智能的历史沉浮

    五期飞跃计划开始报名,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO2)

    SIGAI学习与实践平台
  • DeepMind论文:深度压缩感知,新框架提升GAN性能(附链接)

    CS具有灵活性和数据效率高的优点,但由于其稀疏性和昂贵的重建过程,CS的应用受到限制。

    数据派THU
  • 万亿级!腾讯大数据组件TubeMQ正式开源

    近日,一年一度的国际开源顶会ApacheCon 2019在美国举办,正值 Apache 软件基金会(Apache Software Foundation,ASF...

    用户1532637
  • 多元回归模型

    回归模型 1 基本知识介绍 1.1回归模型的引入 由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。...

    Angel_Kitty
  • 2019年IEEE Fellow名单曝光:近百名华人入选,大陆学者30余人

    IEEE最新公布了2019年的Fellow名单,一共新增295名Fellow ,其中华人90多位、中国大陆学者30余人。

    新智元
  • IBM高级工程师谈数据湖管理

    “在我看来,数据湖是一种参考架构,在保证信息管理秩序和信息安全的条件下,提供了获取数据的有效途径。” ? 何为数据湖 数据湖参考架构实际是指分析系统必备的技术...

    灯塔大数据
  • 【中国AI谁最强?】100家入围企业公布,霍金弟子Alan Yuille教授共同见证AI Era创新大奖!

    【新智元导读】约翰霍普金斯大学教授、霍金的学生Alan Yuille正式确定成为新智元AI WORLD 2018大会重磅演讲嘉宾,9月20日在北京国家会议中心,...

    新智元
  • 基于云开发 CloudBase 搭建在线视频会议应用教程

    在线视频会议应用是基于浏览器的能力 WebRTC 以及 腾讯云开发 CloudBase 能力构建而成的应用. 在云开发的助力下, 一个复杂的在线会议应用, 一个...

    腾讯云开发TCB
  • DeepMind论文:深度压缩感知,新框架提升GAN性能

    CS具有灵活性和数据效率高的优点,但由于其稀疏性和昂贵的重建过程,CS的应用受到限制。

    新智元
  • 全国首创效果付费!“罗湖样板”交出“百分”答卷

    ? ? 统一账号登录、统一平台使用、大数据共享,既便利了师生,又方便了教育主管部门的管理,更打通了教育数据采集分析的“任督二脉”;持续整合各类应用、构建统一生...

    腾讯智慧教育
  • Uber基于Apache Hudi构建PB级数据湖实践

    从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处...

    ApacheHudi
  • Apache Iceberg技术调研&在各大公司的实践应用大总结

    作者在实际工作中调研了Iceberg的一些优缺点和在各大厂的应用,总结在下面。希望能给大家带来一些启示。

    大数据真好玩

扫码关注云+社区

领取腾讯云代金券