前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >新一代信息技术——大数据

新一代信息技术——大数据

作者头像
青灯古酒
发布2023-10-16 08:46:45
3080
发布2023-10-16 08:46:45
举报
文章被收录于专栏:青灯古酒

第二节 大数据

1.大数据的概念  麦肯锡公司对大数据的定义: 大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。  维基百科对大数据的定义: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间限制的数据集。这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。

2.大数据的特点  大数据具有5V特点(IBM提出),即: Volume(规模大)、Variety (种类多) 、Velocity (处理速度快)、Value (价值密度低)、Veracity (真实性)

2.大数据的特点  规模大: 数据规模大是大数据的基本属性。大数据已经从TB级别跃升到PB级别  种类多: 大数据来自多种数据源,数据种类和格式日渐丰富,如网络日志、视频、图片、地理位置信息等  速度快: 数据处理速度快是大数据区别于传统数据挖掘的显著特征。  价值密度低: 数据价值密度的高低与数据总量成反比。  真实性: 数据真实性是指数据的质量和保真性

 根据数据是否具有一定的模式、结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据  其中,非结构化数据越来越成为数据的主要部分  结构化数据: 指遵循一个标准的模式和结构,以二维表的形式存储在关系型数据库里的行数据。  半结构化数据:是指有一定的结构性,但本质上不具有关系性介于完全结构化数据和完全非结构化数据之间的数据。  非结构化数据:没有固定的数据结构,通常用于保存不同类型的文件,如文本文档、图片、音频和视频。

1.数据的采集  数据采集是指从真实世界中获得原始数据的过程。它是大数据分析的入口,所以是相当重要的一个起始环节。没有高质量的数据,就没有高质量的数据挖掘结果。要尽可能收集异源,甚至是异构的数据,还可与历史数据对照多角度验证数据的全面性和可信性。因此,大数据采集不是采样,而是要获取全部的数据.

2.数据预处理  (1)数据集成:数据集成是将多个数据源中的数据进行合并处理。  (2) 数据清洗:数据清洗用于提高数据的质量,即使数据具有一致性、精确性、完整性、时效性和实体同一性。数据清洗的方法有缺失值填充平滑噪声、识别和去除离群点、不一致检测与修复、实体识别与真值发现等  (3) 数据归约: 数据归约指在减小数据存储空间的同时,尽可能保证数据的完整性  (4) 数据变换:数据变换是采用数学变换方法将多维数据压缩成较少维数的数据

3.数据处理与分析  大数据的复杂性使得其难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后进行度量与处理。  大数据分析注重分析数据的相关关系,而不是因果关系

4.数据可视化与应用  数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互

考点9 大数据的应用

 1.大数据在电子政务的应用:依托大数据的发展,节约政府投入,及时有效地进行社会监管和治理  2.大数据在医疗行业的应用: 医疗业务活动、健康体检、公共卫生、传染病监测、人类基因分析等医疗卫生服务过程中将产生海量高价值的数据  3.大数据在能源行业的应用: 能源行业企业对大数据产品和解决方案的需求  4.大数据在零售行业的应用: 对顾客群体细分  5.大数据在气象行业的应用: 气象卫星、天气雷达

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第二节 大数据
    • 考点9 大数据的应用
    相关产品与服务
    对象存储
    对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档