干货!大数据专业词汇整理,不知道容易被别人喷晕!

随着大数据技术的不断提高,大数据应用的不断普及,大数据与各行各业的关系越来越紧密。大数据行业充斥着大量的专业词汇,准确掌握和了解这些词汇的含义,有助于更好的理解大数据,更好地利用大数据技术。这里整理了以数据处理为中心的一些大数据专业词汇,一起来看看吧,面的被别人喷晕了。

本地数据库(LDB/Local Data Base)

本地数据库是指驻留于运行客户应用程序的机器的数据库。本地数据库位于本地磁盘或局域网。典型的本地数据库有Paradox、dBASE、FoxPro和ACCCSS。

数据采集(Data Acquisition,DAQ)

数据采集又称数据获取,将被测试对象的各种参量通过各种传感器做适当转换后,再经过信号调理、采样、量化、编码、传输等步骤传递到控制器的过程。数据采集的一般步骤:用传感器感受各种物理量,并把它们转换成电信号;通过A/D转换,模拟量的数据转变成数字量的数据;数据的记录,打印输出或存入磁盘文件。生产厂商为该采集系统编制的专用程序,常用于大型专用系统;固化的采集程序,常用于小型专用系统;利用生产厂商提供的软件工具,用户自行编制的采集程序,主要用于组合式系统。

数据模型(data model)

数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型是数据库中数据的存储方式,是数据库系统的基础。在数据库中,数据的物理结构又称数据的存储结构,就是数据元素在计算机存储器中的表示及其配置;数据的逻辑结构则是指数据元素之间的逻辑关系,它是数据在用户或程序员面前的表现形式,数据的存储结构不一定与逻辑结构一致。

数据整理(Data Cleansing)

数据整理是对调查、观察、实验等研究活动中所搜集到的资料进行检验、归类编码和数字编码的过程,是数据统计分析的基础。

数据处理(Data Handling)

数据处理是指对数据(包括数值的和非数值的)进行分析和加工的技术过程。也就是对数据的采集、存储、检索、加工、变换和传输,将数据转换为信息的过程。

数据压缩(Data Compression)

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少数据的存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

数据恢复(Data Recovery)

数据恢复是指通过技术手段,将保存在台式机硬盘、笔记本硬盘、服务器硬盘、移动硬盘、U盘等等设备上由于各种原因导致损伤或丢失的数据进行抢救和恢复的技术。

数据集成(Data Integration)

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。数据集成维护了数据源整体上的数据一致性、提高信息共享利用的效率。

数据迁移(Data Migration)

数据迁移又称分级存储管理,是一种将离线存储与在线存储融合的技术。将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,将磁盘中常用的数据按指定策略自动迁移到磁带库等二级容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。

数据冗余(Data Redundancy/Redundant Data)

数据冗余是指同一个数据在系统中多次重复出现。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。

数据抽取(Data mining)

数据抽取是指从源数据源系统抽取目的数据源系统需要的数据的过程。

网络数据抽取 (Web data mining)

是指从网络中取得大量的又利用价值的数字化信息。主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integreation)和观点挖掘(Opinion mining)等。结构化数据抽取的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等。信息集成是针对结构化数据而言,其目标是将从不同网站中抽取出的数据统一化后集成入库。其关键问题是如何从不同网站的数据表中识别出意义相同的数据并统一存储。

数据标准化(data standardization)数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。

数据备份(Data Backup)

数据备份是容灾的基础,为防着系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从原来存储的地方复制到其他地方的活动,将数据遭受破坏的程度减到最小。传统的数据备份主要采用内置或外置的磁带机进行冷备份。这种方式只能防止操作失误等认为故障,其恢复时间也很长。现代企业采用网络备份,通过专业的数据存储管理软件结合相应硬件和存储设备来实现备份。

1.完全备份(Full Backup)。优点是当发生数据丢失的灾难时,可以迅速恢复丢失的数据。不足之处是每天都对整个系统进行完全备份,造成备份的数据大量重复。

2.增量备份(Incremental Backup)。先实施一次完全备份,后续时间里只要对当天的或修改过的数据进行备份。优点:节省了磁盘空间,缩短了备份时间;缺点是数据恢复比较麻烦,备份的可靠性很差。

3.差分备份(Differential Backup)。先实施一次完全备份,再将当天所有与备份不同的数据(新的或修改过的)备份到磁盘上。该策略避免了以上两种策略缺陷的同时,具备其所有优点。首先,它无须每天都对系统做完全备份,所需的备份时间短,节省磁盘空间。其次,数据恢复方便.一旦发生问题,用户只需使用完全备份和发生问题前一天的备份就可以将系统恢复。

本文来自企鹅号 - 弈聪软件媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏

基于JMS的数据交换既数据互操作平台的解决方案

为解决应用系统间数据和信息的互通、互用,建立一个通用的、分布式的数据集成平台,用以解决异构数据平台数据交流和沟通的问题。

854
来自专栏A周立SpringCloud

理解Eureka的自我保护模式

本文我们来探讨Eureka的自我保护模式。自我保护模式是Eureka的重要特性。进入自我保护模式最直观的体现,是Eureka Server首页输出的警告,如图4...

3417
来自专栏数据订阅

图数据库调研

更好,更快速的查询和分析:图数据库为查询相关数据(无论大小)提供了卓越的性能。 图模型提供了固有的索引数据结构,因此它不需要为给定条件的查询加载或接触不相关的数...

37819
来自专栏性能与架构

分布式和集群的区别与联系

分布式和集群都是用来提高系统效率的,只是方式不同 分布式:一个业务拆成多个子业务,部署在不同的服务器上,以缩短单个任务的执行时间来提升效率 集群:同一个业务,部...

3285
来自专栏运维小白

19.7 zabbix的主动模式和被动模式

主动模式和被动模式 主动或者被动是相对客户端来讲的 被动模式,服务端会主动连接客户端获取监控项目数据,客户端被动地接受连接,并把监控信息传递给服务端,服...

1829
来自专栏Golang语言社区

游戏服务器学习之路--数据存储

原文链接:http://www.cnblogs.com/xitang/archive/2011/06/06/2073447.html 在游戏中有很多的数据,有些...

4385
来自专栏企鹅号快讯

虾说区块链-44-分布式系统CAP原理

一直在说区块链是一系列技术结合后的新的技术架构,那么这里分别介绍下这些相关技术,也涉及到一些扩展开去的相关内容。 ? 区块链-分布式系统-CAP原理: 区块链技...

2019
来自专栏架构师之路

计数系统架构实践一次搞定 | 架构师之路

提醒,本文较长,可提前收藏/转发。 一、需求缘起 很多业务都有“计数”需求,以微博为例: ? 微博首页的个人中心部分,有三个重要的计数: 关注了多少人的计数 粉...

3606
来自专栏python百例

103-多进程的效率

没有多进程,即使CPU有多个核心,程序只是运行在一个核心上,无法利用多进程提升效率。5000万次加法,如果需要2.5秒,调用两次共花费5秒。

692
来自专栏Java技术栈

一张图告诉你为什么是服务网关。

网关服务是单一访问点,并充当多项服务的代理。服务网关启用了跨所有服务的路由转发、过滤和公共处理等。 在微服务实践中远不止这点功能,它可以做到统一接入、流量管控、...

3008

扫码关注云+社区