前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据平台的整体架构介绍

大数据平台的整体架构介绍

作者头像
加米谷大数据
发布2019-12-23 17:31:42
2.7K0
发布2019-12-23 17:31:42
举报
文章被收录于专栏:加米谷大数据加米谷大数据

本文不依托于任何一家大厂的平台架构,用通俗的语言介绍一下大数据平台的整体架构。

总体来说,大数据平台可以分为四个部分:

数据采集、数据处理、数据输出任务调度管理。

数据采集

按照数据源可以分为如下4点:

1. 数据库数据

目前比较常用的数据库导入工具有Sqoop和Canal

2. 日志数据

日志是大数据平台重要数据来源之一,应用程序日志一方面记录各种程序执行状况,一方面记录用户的操作轨迹。Flume 是日志收集常用的工具。

3. 前端程序埋点

所谓前端埋点,是应用前端为了进行数据统计和分析采集数据。

4. 爬虫系统

通过网络爬虫获取外部数据用于行业数据支撑,管理决策等。

数据处理

分为离线计算和实时计算两类:

1. 离线计算

由MapReduce、Hive、Spark 等进行的计算处理。

2. 实时计算

由Storm、SparkSteaming 等流式大数据引擎完成,可以在秒级甚至毫秒级时间内完成计算。

数据输出

大数据处理与计算产生的数据写入到 HDFS 中,但应用程序不会到 HDFS 中读取数据,所以必须要将 HDFS 中的数据导出到数据库中。

除了给用户提供数据,大数据平台还需要在一些后台系统中给运营和决策层提供各种统计数据,这些数据也写入数据库,被相应的后台系统访问。

任务调度管理

将上面三个部分有效整合和运转起来的是任务调度管理系统,它的主要作用是:

(1)合理调度各种 MapReduce、Spark 任务使资源利用最合理; (2)尽快执行临时的重要任务; (3)对作业提交、进度跟踪、数据查看等功能。

简单的大数据平台任务调度管理系统其实就是一个类似 Crontab 的定时任务系统,按预设时间启动不同的大数据作业脚本。复杂的大数据平台任务调度还要考虑不同作业之间的依赖关系。

开源的大数据调度系统有 Oozie,也可以在此基础进行扩展。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
流计算 Oceanus
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档