前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据入门须知的51个大数据术语(1)

大数据入门须知的51个大数据术语(1)

作者头像
加米谷大数据
发布2020-02-14 16:32:10
6040
发布2020-02-14 16:32:10
举报
文章被收录于专栏:加米谷大数据加米谷大数据

本文从最近的大数据指南中创建了一份汇编清单,其中列出了我们认为最重要的相关术语和定义。

A

Algorithm算法:

赋予AI,神经网络或其他机器的一组规则,以帮助其自行学习;分类,聚类,推荐和回归是四种最受欢迎的类型。

Apache Flink:

一个开源流数据处理框架。它用Java和Scala编写,用作分布式流数据流引擎。

Apache Hadoop:

一种开源工具,可通过使用MapReduce在计算机之间处理和存储大型分布式数据集。

Apache Kafka:

一种分布式流平台,通过提高吞吐量,内置分区,复制,延迟和可靠性来改进传统消息代理。

Apache NiFi:

开源Java服务器,它以可扩展,可插入,开放的方式实现系统之间数据流的自动化。NiFi是由NSA开源的。

Apache Spark:

一种开源大数据处理引擎,可在Apache Hadoop,Mesos或云之上运行。

AI人工智能:

机器做出决策并执行模拟人类智力和行为的任务的能力。

B

Big data大数据:

大量数据的常用术语。要成为大数据,数据必须以高速度,大变化或大容量进入系统。

Blob存储:

一种Azure服务,将非结构化数据作为Blob或对象存储在云中。

BI商业智能:

可视化和分析商业数据,以制定可行且明智的决策的过程。

C

Cluster群集:

共享特定特征的数据子集。也可以指协同工作以解决单个问题的多台机器。

COAP:

受约束的应用程序协议是用于有限资源设备的Internet应用程序协议,可以将其转换为HTTP(如果需要)。

D

数据工程:

数据的收集,存储和处理,以便数据科学家可以查询。

数据流管理:

提取原始设备数据的专用过程,同时管理成千上万个生产者和消费者的流。然后执行基本数据充实,流分析,聚合,拆分,模式转换,格式转换和其他初始步骤,以准备数据以进行进一步的业务处理。

数据治理:

管理数据湖内数据的可用性,可用性,完整性和安全性的过程。

数据集成:

合并来自不同来源的数据并为用户提供统一视图的过程。

数据湖:

以原始格式保存原始数据的存储库。

数据挖掘:

一种通过检查和分析大型数据库来生成新信息的实践。

数据可操作化:

将变量严格定义为可测量因素的过程。

数据准备:

主要用于分析的将数据收集,清理和合并为一个文件或数据表的过程。

数据处理:

通过机器检索,转换,分析或分类信息的过程。

数据科学:

一个领域,探索可重复的过程和方法,以从数据中获取见解。

数据沼泽:

如果没有适当的管理,数据湖将变成什么样。

数据验证:

检查数据集以确保所有数据在处理之前都是干净,正确和有用的行为。

数据仓库:

来自各种来源的大量数据,用于帮助公司做出明智的决策。

设备层:

传感器,执行器,智能手机,网关和工业设备的整个范围,它们发送与其环境和性能特征相对应的数据流。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档