本文从最近的大数据指南中创建了一份汇编清单,其中列出了我们认为最重要的相关术语和定义。
A
Algorithm算法:
赋予AI,神经网络或其他机器的一组规则,以帮助其自行学习;分类,聚类,推荐和回归是四种最受欢迎的类型。
Apache Flink:
一个开源流数据处理框架。它用Java和Scala编写,用作分布式流数据流引擎。
Apache Hadoop:
一种开源工具,可通过使用MapReduce在计算机之间处理和存储大型分布式数据集。
Apache Kafka:
一种分布式流平台,通过提高吞吐量,内置分区,复制,延迟和可靠性来改进传统消息代理。
Apache NiFi:
开源Java服务器,它以可扩展,可插入,开放的方式实现系统之间数据流的自动化。NiFi是由NSA开源的。
Apache Spark:
一种开源大数据处理引擎,可在Apache Hadoop,Mesos或云之上运行。
AI人工智能:
机器做出决策并执行模拟人类智力和行为的任务的能力。
B
Big data大数据:
大量数据的常用术语。要成为大数据,数据必须以高速度,大变化或大容量进入系统。
Blob存储:
一种Azure服务,将非结构化数据作为Blob或对象存储在云中。
BI商业智能:
可视化和分析商业数据,以制定可行且明智的决策的过程。
C
Cluster群集:
共享特定特征的数据子集。也可以指协同工作以解决单个问题的多台机器。
COAP:
受约束的应用程序协议是用于有限资源设备的Internet应用程序协议,可以将其转换为HTTP(如果需要)。
D
数据工程:
数据的收集,存储和处理,以便数据科学家可以查询。
数据流管理:
提取原始设备数据的专用过程,同时管理成千上万个生产者和消费者的流。然后执行基本数据充实,流分析,聚合,拆分,模式转换,格式转换和其他初始步骤,以准备数据以进行进一步的业务处理。
数据治理:
管理数据湖内数据的可用性,可用性,完整性和安全性的过程。
数据集成:
合并来自不同来源的数据并为用户提供统一视图的过程。
数据湖:
以原始格式保存原始数据的存储库。
数据挖掘:
一种通过检查和分析大型数据库来生成新信息的实践。
数据可操作化:
将变量严格定义为可测量因素的过程。
数据准备:
主要用于分析的将数据收集,清理和合并为一个文件或数据表的过程。
数据处理:
通过机器检索,转换,分析或分类信息的过程。
数据科学:
一个领域,探索可重复的过程和方法,以从数据中获取见解。
数据沼泽:
如果没有适当的管理,数据湖将变成什么样。
数据验证:
检查数据集以确保所有数据在处理之前都是干净,正确和有用的行为。
数据仓库:
来自各种来源的大量数据,用于帮助公司做出明智的决策。
设备层:
传感器,执行器,智能手机,网关和工业设备的整个范围,它们发送与其环境和性能特征相对应的数据流。