专栏首页CSDN技术头条51个你需要知道的大数据术语

51个你需要知道的大数据术语

每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。

你认为我们还应该添加哪些术语?请在评论中告诉我们。

A

算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。

Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用作分布式流数据流引擎。

Apache Hadoop:开源工具,使用MapReduce处理和存储跨机器的大型分布式数据集。

Apache Kafka:一种分布式流式传输平台,通过提高吞吐量、内置分区、复制、延迟和可靠性来改进传统的消息代理。

Apache NiFi:一种开源Java服务器,可以以可扩展、可插拔、开放的方式实现系统间数据流的自动化。NiFi由国家安全局(NSA)开源。

Apache Spark:在Apache Hadoop、Mesos或云端运行的开源大数据处理引擎。

人工智能:机器做出决策、执行模拟人类智力和行为任务的能力。

B

大数据:大量数据的通用术语。大数据的数据具有高速、多样化、海量的特征。

Blob存储:一种Azure服务,将非结构化数据存储在云中作为blob或对象。

商业智能:可视化和分析商业数据的过程,以便采取可行且明智的决策。

C

集群:共享特定特征的数据子集,也指几台机器共同解决同一问题。

约束应用协议(COAP):有限资源设备的一种互联网应用协议,可以转换成HTTP。

D

数据工程:收集、存储、处理数据,以便数据科学家查询。

数据流管理:采集原始设备数据的专门过程,同时管理成千上万生产者和消费者的流量。然后执行基本数据丰富、流分析、聚合、拆分、模式转换、格式转换等初级步骤,为进一步业务处理做数据准备。

数据治理:管理数据湖中数据的可获得性、可使用性、完整性和安全性的过程。

数据整合:组合不同来源数据并为用户提供统一视图的过程。

数据湖:一种以原始格式保存原始数据的存储库。

数据挖掘:通过检查和分析大型数据库来生成新信息的做法。

数据实现:将变量严格定义为可衡量因素的过程。

数据准备:收集、清理、整合数据到一个文件或数据表中,主要用于分析。

数据处理:机器检索、变换、分析或分类信息的过程。

数据科学:探索可重复的流程和方法,从而从数据中获取知识的领域。

数据沼泽:没有适当治理的数据湖就会变成数据沼泽。

数据验证:检查数据集以确保所有数据在处理之前是整洁、正确和有用的。

数据仓库:各种来源的大量数据,用于帮助公司做出明智的决策。

设备层:依据所处的环境和性能特征,来发送数据流的传感器、执行器、智能手机、网关和工业设备的整个范围。

G

GPU加速数据库:摄取流数据所需的数据库。

图形分析:组合和可视化一组数据中不同数据点之间的关系的方法。

H

Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。

I

摄取:从任意数量不同的来源中摄取流数据。

M

MapReduce:一种数据处理模型,在Map阶段过滤和排序数据,然后对该数据执行功能并在Reduce阶段输出。

Munging:将数据从原始格式手动转换或映射到便于使用的格式。

N

正态分布:代表大量随机变量概率的常用图,随着数据集变大,这些变量接近正态。也称为高斯分布或钟形曲线。

规范化:将数据组织到表中的过程,使得数据库的使用结果始终是明确且按计划进行的。

P

解析:将数据(如字符串)分割成更小的部分进行分析。

持久存储:创建数据进程结束后,保存数据在一个不变地点(如磁盘)。

Python:一种强调代码可读性的通用编程语言,以便程序员使用较少的代码来表达概念。

R

R:一种主要用于数据可视化和预测分析的开源语言。

实时流处理:通过并行使用机器分析数据序列的模型,但功能有所减少。

关系数据库管理系统(RDBMS):一种基于共享属性(称为关系)分组的管理、捕获和分析数据的系统。

弹性分布式数据集:Apache Spark提取数据的主要方式,数据以一种可容错方式存储在多台机器上。

S

碎片:数据库的单独分区。

智能数据:一种格式化的数码信息,可以在发送到下游分析平台进行进一步数据整合和分析之前在采集点进行操作。

流处理:数据的实时处理。数据被连续、并发和记录处理。

结构化数据:具有高度组织的信息。

T

分类:根据预先确定的系统对数据进行分类,结果目录用于提供易于访问和检索的概念框架。

遥测:远程采集有关对象的信息(例如从汽车、智能手机、医疗设备或物联网设备)。

转换:将数据从一种格式转换为另一种格式。

U

非结构化数据:不具有预定义数据模型或未以预定义方式组织的数据。

V

可视化:分析数据并以可读、图形格式(如图表)进行表达的过程。

Z

区域:数据湖中的特定区域,服务于特定目的。

原文:51 Big Data Terms You Need to Know 作者:Sarah Davis 译者:牟云飞

本文分享自微信公众号 - CSDN技术头条(CSDN_Tech),作者:Sarah Davis

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据和开放数据有什么不一样?

    Q:大数据从哪来? A:任何地方。随着物联网兴起,任何以前不可能产生数据的东西或地方都可能「数据化」。天睿资讯(Teradata)首席技术长宝立明认为大数据的发...

    CSDN技术头条
  • 概念,算法,应用全部有,迄今为止对大数据研究最透彻的文章……

    一、 大数据基本概念 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算...

    CSDN技术头条
  • 干货 | 2014年我国大数据发展分析报告

    如今,大数据俨然成为IT领域最受关注的热词之一。如果不想显得过于OUT,本文的报告就来和读者一起分析大数据的未来发展趋势。 一、国内外大数据的发展状况及应用 1...

    CSDN技术头条
  • 一篇对大数据深度思考的文章,让你认识并读懂大数据

      我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起...

    华章科技
  • 投稿 | 现阶段我为什么不看好纯粹的数据交易?

    原力大数据创始人江颖表示,尽管大数据交易平台建设正值爆发期,数据交易号称的市场规模也在不断壮大,同时也有国家大力的政策支持。但是短期内,我仍然不看好数据交易,因...

    数据猿
  • 大数据24小时 | 美国创企LogicMonitor完成 1.3亿美元融资 ,京东金融再扩版图布局车联网大数据

    <数据猿导读> 提供数据中心监测服务的美国创企LogicMonitor完成 1.3亿美元融资;东南卫视与认知数据合作,布局影视文化大数据;京东金融再扩版图,合作...

    数据猿
  • 盛世的阴影:大数据时代的挑战渐渐浮出水面

    数据猿导读 6月29日,由数据猿主办的金融大数据峰会在上海盛大召开,现场汇集了众多来自大数据领域内执牛耳的重量级嘉宾。大数据被誉为第四次工业革命的能源,整个产业...

    数据猿
  • 大数据正强势入侵生活的各个方面,你发觉了吗?

    随着互联网的发展,信息交流也在不断加速,大数据在各行各业几乎都站稳了脚跟,特别是越来越多的政府机构与公司组织都已经把大数据应用作为了重要的一环。那么,大数据在社...

    数据猿
  • 大数据变现,这里有9种商业模式,你走的哪条路?

    <数据猿导读> 大数据产业具有无污染、生态友好、低投入高附加值特点,对于我国转变过去资源因素型经济增长方式、推进“互联网+”行动计划、实现国家制造业30年发展目...

    数据猿
  • “人才银行”赤字,“数据银行”提不出款 大数据人才亟待弥补

    <数据猿导读> 数据资产转向“数据金融”“数据银行”,不仅意味着大数据的潜在价值进一步被认可,更意味着大数据产业生态进一步完善。而要在产业生态中让数据变现,还需...

    数据猿

扫码关注云+社区

领取腾讯云代金券