专栏首页arxiv.org翻译专栏全面而可理解的数据目录:元数据管理的内容,对象,地点,时间,原因和方式(CS DB)

全面而可理解的数据目录:元数据管理的内容,对象,地点,时间,原因和方式(CS DB)

可伸缩数据科学要求访问元数据,而元数据越来越受到称为数据目录的数据库的管理。 使用当今的数据目录,用户可以在易于存储或检索元数据的设计之间进行选择,但不能同时选择两者。 我们发现出现此问题是因为目录缺乏易于理解的心理模型。 在本文中,我们提出了一种称为5W1H + R的新目录心理模型。 新的心理模型在它表示的元数据中是全面的,并且可理解,因为它允许用户轻松定位元数据。 我们通过用户研究证明了这些属性。 然后,我们针对新的心理模型实现研究不同的架构设计,并在不同的后端对其进行评估,以了解其相对优点。 我们得出结论,心智模型对于使数据目录更加有用并促进对数据科学任务至关重要的元数据管理工作非常重要。

原文题目:Comprehensive and Comprehensible Data Catalogs: The What, Who, Where, When, Why, and How of Metadata Management

原文:Scalable data science requires access to metadata, which is increasingly managed by databases called data catalogs. With today's data catalogs, users choose between designs that make it easy to store or retrieve metadata, but not both. We find this problem arises because catalogs lack an easy to understand mental model. In this paper, we present a new catalog mental model called 5W1H+R. The new mental model is comprehensive in the metadata it represents, and comprehensible in that it permits users to locate metadata easily. We demonstrate these properties via a user study. We then study different schema designs for the new mental model implementation and evaluate them on different backends to understand their relative merits. We conclude mental models are important to make data catalogs more useful and to boost metadata management efforts that are crucial for data science tasks.

原文链接:https://arxiv.org/abs/2103.07532

原文作者:Pranav Subramaniam (1), Yintong Ma (1), Chi Li (1), Ipsita Mohanty (2), Raul Castro Fernandez (1) ((

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ORM查询语言(OQL)简介--实例篇

    相关文章内容索引: ORM查询语言(OQL)简介--概念篇 ORM查询语言(OQL)简介--实例篇 ORM查询语言(OQL)简介--高级篇:脱胎换骨 ORM查询...

    用户1177503
  • 汇编语言全梳理(精简版)

    内存地址由 段地址:偏移地址 决定,8086 选择 ds 段寄存器作为默认的段地址

    全栈程序员站长
  • java面试大总结(3)

    会。如:int i,i2; return (i-i2); //when i为足够大的正数,i2为足够大的负数。结果会造成溢位,导致错误。

    py3study
  • 汇编基础

    ​ cup与所有内存之间:地址总线,数据总线,控制总线,每条线对应不同信息,指令与数据分开

    Dean0731
  • python自动化测试(2)-自动化基本技术原理

    python自动化测试(2) 自动化基本技术原理 1   概述 在之前的文章里面提到过:做自动化的首要本领就是要会 透过现象看本质 ,落实到实际的IT工作中就是...

    用户1170933
  • 深入剖析 iOS 性能优化

    在集合里数据量小的情况下时间复杂度对于性能的影响看起来微乎其微。但如果某个开发的功能是一个公共功能,无法预料调用者传入数据的量时,这个复杂度的优化显得非常重要了...

    用户7451029
  • 亮剑.NET的系列文章之初识三层架构

    最近在学习三层结构,通过上网找各种资料,初步学习了一些三层的知识跟大家分享一下。先跟大家介绍一下三层的来源,为什么叫三层?

    程序猿小亮
  • SVN版本控制服务

    SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于CVS,它采用了分支管理系统,它的设计目标就是取代CVS。互联网上很多版本控制服务已从...

    胡齐
  • 汇编语言第三版答案(王爽)

    汇编语言答案(王爽)  此文只是用来存个档,不喜勿喷 检测点1.1 (1)1个CPU的寻址能力为8KB,那么它的地址总线的宽度为 13位。 (2)1KB的存储器...

    Angel_Kitty
  • 系统性能提升利刃 | 缓存技术使用的实践与思考

    按照现在流行的互联网分层架构模型,最简单的架构当属Web响应层+DB存储层的架构。从最开始的单机混合部署Web和DB,到后来将二者拆分到不同物理机以避免共享机器...

    猿天地
  • 8086汇编语言之代码分段

    以上代码存在一个问题, 由于数据是在代码段中定义, cpu默认将数据识别为代码, 将导致数据不可用,那么解决办法为,增加入口标记:

    乱码三千
  • 奖学金评分系统(系统分析与设计版与Delphi实现代码)

    在奖学金评比过程中,学生综合测评是学校普遍采用的评比手段。对学生实施综合素质测评的目的在于正确评价学生的综合素质,为评奖学金提供依据,实现学生教育管理工作的标准...

    用户1621453
  • 附详尽答案,新版精选Android中高级面试题--二

    链接:https://juejin.im/post/5c8211fee51d453a136e36b0

    陈宇明
  • 企业是如何选择技术栈来做离线数仓

    最近在跟一位粉丝聊天,聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个案例,仅供参考。

    大数据老哥
  • 昨天,腾讯百万节点规模管控系统(TSC)诞生了!

    腾讯技术工程官方号
  • 开源NewSQL – CockroachDB在百度内部的应用与实践

    IT大咖说
  • MongoDB学习整理

    MongoDB 是介于关系数据库和非关系数据库之间的产品,是非关系数据库中功能最丰富,最像关系数据库的,语法类似javascript面向对象的查询语言,是一个面...

    csxiaoyao
  • 建议收藏 | CS学习笔记合集

    自2020年4月份至2020年10月份,笔者更新了自己在学习 Cobalt Strike 过程中的 28 篇笔记,并将笔记同步更新到了自己的公众号、博客、CSD...

    TeamsSix
  • iOS8下的UIAlertContoller初探

    1. 任何执行时间长于 wait_timeout或interactive_timeout选项值得备份,都会导致会话被关闭,这也会隐含执行UNLOCK TABL...

    全栈程序员站长

扫码关注云+社区

领取腾讯云代金券