首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Day19,软考倒计时36天】陪你读懂《信息系统项目管理师教程第4版》-2.2.3大数据

2.2.3大数据

1.技术基础

大数据是具有体量大、结构多样、时效性强等特征的数据,处理大数据需要采用新型计算架构和智能算法等新技术。大数据从数据源到最终价值实现一般需要经过数据准备、数据存储与管理、数据分析和计算、数据治理和知识展现等过程,涉及数据模型、处理模型、计算理论以及与其相关的分布计算、分布存储平台技术、数据清洗和挖掘技术、流式计算和增量处理技术、数据质量控制等方面的研究。一般来说,大数据主要特征包括:

•数据海量:大数据的数据体量巨大,从TB级别跃升到PB级别(1PB=1O24TB)、EB级别(1EB=1O24PB),甚至达到ZB级别(1ZB=1O24EB)。

•数据类型多样:大数据的数据类型繁多,一般分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

•数据价值密度低:数据价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。

•数据处理速度快:为了从海量的数据中快速挖掘数据价值,一般要求要对不同类型的数据进行快速的处理,这是大数据区分于传统数据挖掘的最显著特征。

2.关键技术

从总体上说,大数据技术架构主要包含大数据获取技术、分布式数据处理技术和大数据管理技术,以及大数据应用和服务技术。

1)大数据获取技术

目前,大数据获取的研究主要集中在数据采集、整合和清洗三个方面。数据采集技术实现数据源的获取,然后通过整合和清理技术保证数据质量。

2)分布式数据处理技术

分布式计算是随着分布式系统的发展而兴起的,其核心是将任务分解成许多小的部分,分配给多台计算机进行处理,通过并行工作的机制,达到节约整体计算时间,提高计算效率的目的。目前,主流的分布式计算系统有Hadoop、Spark和Storm。Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

3)大数据管理技术

大数据管理技术主要集中在大数据存储、大数据协同和安全隐私等方面。

4)大数据应用和服务技术

大数据应用和服务技术主要包含分析应用技术和可视化技术。

欢迎大家联系老王进行交流探讨~

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLqXViDvblJ0Q75jx0W6y_rg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券