51个你需要知道的大数据术语

每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。

你认为我们还应该添加哪些术语?请在评论中告诉我们。

A

算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。

Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用作分布式流数据流引擎。

Apache Hadoop:开源工具,使用MapReduce处理和存储跨机器的大型分布式数据集。

Apache Kafka:一种分布式流式传输平台,通过提高吞吐量、内置分区、复制、延迟和可靠性来改进传统的消息代理。

Apache NiFi:一种开源Java服务器,可以以可扩展、可插拔、开放的方式实现系统间数据流的自动化。NiFi由国家安全局(NSA)开源。

Apache Spark:在Apache Hadoop、Mesos或云端运行的开源大数据处理引擎。

人工智能:机器做出决策、执行模拟人类智力和行为任务的能力。

B

大数据:大量数据的通用术语。大数据的数据具有高速、多样化、海量的特征。

Blob存储:一种Azure服务,将非结构化数据存储在云中作为blob或对象。

商业智能:可视化和分析商业数据的过程,以便采取可行且明智的决策。

C

集群:共享特定特征的数据子集,也指几台机器共同解决同一问题。

约束应用协议(COAP):有限资源设备的一种互联网应用协议,可以转换成HTTP。

D

数据工程:收集、存储、处理数据,以便数据科学家查询。

数据流管理:采集原始设备数据的专门过程,同时管理成千上万生产者和消费者的流量。然后执行基本数据丰富、流分析、聚合、拆分、模式转换、格式转换等初级步骤,为进一步业务处理做数据准备。

数据治理:管理数据湖中数据的可获得性、可使用性、完整性和安全性的过程。

数据整合:组合不同来源数据并为用户提供统一视图的过程。

数据湖:一种以原始格式保存原始数据的存储库。

数据挖掘:通过检查和分析大型数据库来生成新信息的做法。

数据实现:将变量严格定义为可衡量因素的过程。

数据准备:收集、清理、整合数据到一个文件或数据表中,主要用于分析。

数据处理:机器检索、变换、分析或分类信息的过程。

数据科学:探索可重复的流程和方法,从而从数据中获取知识的领域。

数据沼泽:没有适当治理的数据湖就会变成数据沼泽。

数据验证:检查数据集以确保所有数据在处理之前是整洁、正确和有用的。

数据仓库:各种来源的大量数据,用于帮助公司做出明智的决策。

设备层:依据所处的环境和性能特征,来发送数据流的传感器、执行器、智能手机、网关和工业设备的整个范围。

G

GPU加速数据库:摄取流数据所需的数据库。

图形分析:组合和可视化一组数据中不同数据点之间的关系的方法。

H

Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。

I

摄取:从任意数量不同的来源中摄取流数据。

M

MapReduce:一种数据处理模型,在Map阶段过滤和排序数据,然后对该数据执行功能并在Reduce阶段输出。

Munging:将数据从原始格式手动转换或映射到便于使用的格式。

N

正态分布:代表大量随机变量概率的常用图,随着数据集变大,这些变量接近正态。也称为高斯分布或钟形曲线。

规范化:将数据组织到表中的过程,使得数据库的使用结果始终是明确且按计划进行的。

P

解析:将数据(如字符串)分割成更小的部分进行分析。

持久存储:创建数据进程结束后,保存数据在一个不变地点(如磁盘)。

Python:一种强调代码可读性的通用编程语言,以便程序员使用较少的代码来表达概念。

R

R:一种主要用于数据可视化和预测分析的开源语言。

实时流处理:通过并行使用机器分析数据序列的模型,但功能有所减少。

关系数据库管理系统(RDBMS):一种基于共享属性(称为关系)分组的管理、捕获和分析数据的系统。

弹性分布式数据集:Apache Spark提取数据的主要方式,数据以一种可容错方式存储在多台机器上。

S

碎片:数据库的单独分区。

智能数据:一种格式化的数码信息,可以在发送到下游分析平台进行进一步数据整合和分析之前在采集点进行操作。

流处理:数据的实时处理。数据被连续、并发和记录处理。

结构化数据:具有高度组织的信息。

T

分类:根据预先确定的系统对数据进行分类,结果目录用于提供易于访问和检索的概念框架。

遥测:远程采集有关对象的信息(例如从汽车、智能手机、医疗设备或物联网设备)。

转换:将数据从一种格式转换为另一种格式。

U

非结构化数据:不具有预定义数据模型或未以预定义方式组织的数据。

V

可视化:分析数据并以可读、图形格式(如图表)进行表达的过程。

Z

区域:数据湖中的特定区域,服务于特定目的。

原文:51 Big Data Terms You Need to Know 作者:Sarah Davis 译者:牟云飞

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2017-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

[译] 实时股票预测的开源参考结构

1588
来自专栏儿童编程

Python Turtle动画的另一种实现方式——改变坐标系

通过研究Python 自带turtle案例,发现了实现动态效果的有一种方式——重构坐标体系(‘setworldcoordinates’)。

3682
来自专栏何俊林

关于直播,所有的技术细节都在这里了(三)

上篇《关于直播,所有的技术细节都在这里了(二)》我们讲述了直播应用层协议及传输层协议的选择以及对直播体验影响的分析 。本篇中我们将介绍在传输直播流媒体过程中的内...

23810
来自专栏ytkah

dedecms调用当前栏目的子栏目怎么操作

  有时我们建网站会建很多分类,每个分类又有小分类,为了让顶级栏目获得更好的权重和排名,我们会聚合子栏目。那么dedecms调用当前栏目的子栏目怎么操作呢?  ...

2686
来自专栏企鹅号快讯

Python库中Top10 的AI项目,赶紧收藏!

1.Home-assistant (v0.6+):基于Python 3的开源家庭自动化平台[Github 11357 stars,由Paulus Schouts...

2697
来自专栏美团技术团队

智能投放系统之场景分析最佳实践

背景 美团点评作为最大的生活服务互联网平台,需要针对数亿用户进行各种运营活动,而其线上存在超过千万的POI,覆盖超过2000城市、2.5万个后台商圈。在海量数据...

40212
来自专栏大数据挖掘DT机器学习

使用Python爬取社交网络数据分析

数据抓取 一、直接抓取数据 二、模拟浏览器抓取数据 三、基于API接口抓取数据 数据预处理 可视化 数据分析 扩散深度 扩散速度 空间分布 节点属性 网络属性...

7707
来自专栏杨建荣的学习笔记

元数据流程管理思考

在运维开发中,经常会有类似的需求,这里的数据变化了,另外一个地方也应该发生变化,应该实现级联,看起来是很简单的需求,但是什么时候触发,触发时需要做哪些检查,这些...

1523
来自专栏瓜大三哥

Matlab基本语法9

simulink基本知识 simulink是matlab软件的重要组成部分,能够进行系统的建模、仿真和综合分析,提供了交互式图形化环境,在simulink中,把...

2158
来自专栏CDA数据分析师

Python能用来做什么?以下是Python的三大主要用途

如果你想学Python,或者你刚开始学习Python,那么你可能会问:“我能用Python做什么?”

2351

扫码关注云+社区

领取腾讯云代金券