前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【大数据应用开发】大数据的概念[通俗易懂]

【大数据应用开发】大数据的概念[通俗易懂]

作者头像
全栈程序员站长
发布2022-09-05 10:25:52
1K0
发布2022-09-05 10:25:52
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

一. 大数据的概念

维基百科定义: 大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。

二. 大数据4V特征

  • Volume:体量巨大
  • Velocity:处理速度快
  • Variety:类型繁多(结构化,半结构化,非结构化)
  • Value:价值密度低

三. 大数据主流技术

  • 数据采集预处理
  1. flume可以进行流式日志数据的收集
  2. sqoop可以交互关系型数据库,进行导入导出数据
  3. 使用爬虫技术,可以在网上爬取海量网页数据
  • 数据存储与管理 大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
  • 数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。

四. 大数据应用

在这里插入图片描述
在这里插入图片描述

五. 场景化解决方案:

1. 离线批处理

1.1 概念:

离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。 离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。

1.2 特点:
  • 处理时间要求不高
  • 处理数据量巨大
  • 处理数据格式多样
  • 占用计算存储资源多
1.3 流程图
在这里插入图片描述
在这里插入图片描述

2. 实时检索

2.1 概念:

实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。

2.2 核心诉求
  • 检索性能要求高
  • 高并发查询
  • 数据量大
  • 支持结构化和非结构化
  • 高效的数据加载
  • 支持图检索
2.3流程图
在这里插入图片描述
在这里插入图片描述

3. 实时流处理

3.1 概念:

实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。

3.2 诉求:
  • 处理数据快
  • 高吞吐量
  • 抗震性强
  • 可靠性高
  • 水平扩展
  • 多数据源支持
  • 数据权限和资源隔离
  • 第三方工具对接
3.3 流程图
在这里插入图片描述
在这里插入图片描述

4.融合数仓

4.1概念:

在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。 随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

4.2诉求
  • 数据统一存储
  • 减少数据孤岛和冗余
  • 一集成(旧业务和新业务可以无缝集成)
  • 大集群
4.3流程图
在这里插入图片描述
在这里插入图片描述

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/135917.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年6月4,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一. 大数据的概念
  • 二. 大数据4V特征
  • 三. 大数据主流技术
  • 四. 大数据应用
  • 五. 场景化解决方案:
    • 1. 离线批处理
      • 1.1 概念:
      • 1.2 特点:
      • 1.3 流程图
    • 2. 实时检索
      • 2.1 概念:
      • 2.2 核心诉求
      • 2.3流程图
    • 3. 实时流处理
      • 3.1 概念:
      • 3.2 诉求:
      • 3.3 流程图
    • 4.融合数仓
      • 4.1概念:
      • 4.2诉求
      • 4.3流程图
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档