词汇表

最近更新时间:2019-08-07 09:38:28

数据接入相关词汇

实时数据接入

支持多源异构数据实时接入大数据平台,高效实时的数据分发和实时处理。

离线数据接入

多种数据源之间的灵活、快速集成,从而实现结构化、半结构化数据源之间的任意传输。

数据治理相关词汇

数据地图

业务数据可视化展示,可共享、协作数据资产。

数据血缘

数据产生的链路或者路径,例如通过数据 A 数据 B 产生了数据 C,那么 C 的父血缘就是 A 和 B,反之亦然。在大数据套件中描述数据“父子”关系,以思维导图形式展现了数据变化影响和数据生产溯源,清晰刻画表与表之间、任务与任务之间的关系。

数据质量

提供内置规则和自定义规则,对数据质量进行检测,通过数据质量全息图对数据质量健康度进行实时监控,进而实现数据质量缺陷定位、追溯提供决策支撑。

数据字典

对数据的数据项、数据结构、数据存储等进行定义和描述,其目的是对数据流程图中的各个元素做出详细的说明,使用数据字典为简单的建模项目。简而言之,数据字典是描述数据的信息集合,是对系统中使用的所有数据元素的定义的集合。

数据开发相关词汇

任务调度

腾讯自研的任务调度系统,具有毫秒级任务下发,高可靠的特性,同时支持插件式扩展任务类型。

数据分析

提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce/Spark 任务运行,进行在线 Scala、Python、SQL 脚本调试。

机器学习

让数据科学家和算法工程师提供更棒体验的机器学习平台,通过拖拽式任务流设计,灵活多变的运行模式,丰富的内置机器学习算法,支持多种机器学习框架, 并提供可视化效果,同时还有强大的团队协作和分享能力,支持多种场景下的多实例调度, 让用户享受机器学习的乐趣。

平台管理相关词汇

项目

项目是大数据平台所有资源管理的基础,所有应用系统上线,都必须运行在分配好的项目之内,项目可以认为是一个大数据开发项目,也可以按照组织部门逻辑划分项目。项目包含唯一的资源队列,包括 CPU、内存、存储空间等,不同资源队列之间分配优先级。

用户

大数据平台的使用用户,隶属于项目,拥有开发、运维、管理员等数种项目成员权限身份。

角色

分配给用户在大数据平台的权限划分,包括系统管理员(超级用户)、项目管理员、项目开发、项目运维。

资源

包括计算资源和存储资源,计算资源是 yarn 资源可以调度分配 CPU 和内存资源;存储资源是 HDFS 的存储空间。

资源池

yarn 分配指定资源队列,提供计算任务时需要的资源。

大数据处理套件 相关文档