首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据平台架构的组成

大数据平台架构的组成

作者头像
加米谷大数据
发布2019-10-15 16:39:07
2.6K0
发布2019-10-15 16:39:07
举报
文章被收录于专栏:加米谷大数据加米谷大数据

大数据平台是什么?有哪些组成?

01

大数据平台

是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。

02

典型大数据平台架构

由上到下,可分为三个部分:数据搜集、数据处理、数据输出与展示。

-1

数据采集

将应用程序发作的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。

数据库同步一般用 Sqoop,日志同步可以选择 Flume,打点搜集的数据经过格式化转化后通过 Kafka 等音讯队列进行传递。

-2

数据处理

这部分是大数据存储与核算的核心,数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等读取 HDFS 上的数据进行核算,再将计算结果写入 HDFS。

-3

数据输出与展现

大数据核算发生的数据还是写入到 HDFS 中,但应用程序不能到 HDFS 中读取数据,所以有必要要将 HDFS 中的数据导出到数据库中。

数据同步导出相对比较简单,核算发生的数据都比较标准,稍作处理就可以用 Sqoop 之类的体系导出到数据库。这时,应用程序就可以直接拜访数据库中的数据,实时展现给用户。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档