专栏首页加米谷大数据大数据平台架构的组成

大数据平台架构的组成

大数据平台是什么?有哪些组成?

01

大数据平台

是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。

02

典型大数据平台架构

由上到下,可分为三个部分:数据搜集、数据处理、数据输出与展示。

-1

数据采集

将应用程序发作的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。

数据库同步一般用 Sqoop,日志同步可以选择 Flume,打点搜集的数据经过格式化转化后通过 Kafka 等音讯队列进行传递。

-2

数据处理

这部分是大数据存储与核算的核心,数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等读取 HDFS 上的数据进行核算,再将计算结果写入 HDFS。

-3

数据输出与展现

大数据核算发生的数据还是写入到 HDFS 中,但应用程序不能到 HDFS 中读取数据,所以有必要要将 HDFS 中的数据导出到数据库中。

数据同步导出相对比较简单,核算发生的数据都比较标准,稍作处理就可以用 Sqoop 之类的体系导出到数据库。这时,应用程序就可以直接拜访数据库中的数据,实时展现给用户。

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?

    考核题的文章里面是自己测了8个TNBC病人的转录组然后分析,这里借助TCGA数据库,所以可以复现。我这里想展现的主要是TCGA的数据下载和基因的ID转换,分类,...

    生信技能树
  • 这么多监控组件,总有一款适合你

    监控是分布式系统的必备组件,能够起到提前预警、问题排查、评估决策等功效,乃行走江湖、居家必备之良品。

    xjjdog
  • 从100到1000万高并发的架构演进之路

    本文以设计淘宝网的后台架构为例,介绍从一百个并发到千万级并发情况下服务端的架构的14次演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一...

    用户4372098
  • Redis与数据库数据一致性

    可能谈到保持Redis与Mysql双库的数据一致性,可能很多人最先想到的方案就是读请求和写请求串行化,串到一个内存队列里去。但是这个方案有着一个致命的缺点:读请...

    逆月翎
  • Kafka学习笔记之Kafka背景及架构介绍

      本文介绍了Kafka的创建背景,设计目标,使用消息系统的优势以及目前流行的消息系统对比。并介绍了Kafka的架构,Producer消息路由,Consumer...

    Jetpropelledsnake21
  • 今儿聊一聊Mysql的性能优化

    没有特殊要求(即Innodb无法满足的功能如:列存储,存储空间数据等)的情况下,所有表必须使用Innodb存储引擎(mysql5.5之前默认使用Myisam,5...

    程序员小明
  • phpEnv一款优雅强大的php集成开发环境

    php集成开发环境有很多种,例如phpstudy,wamp,xmapp等等,各有各的优点和缺点,本文并不是对各个 IDE 的使用和调试进行详细的对比和评测,因为...

    php007
  • Spring 常犯的十大错误,打死都不要犯!

    我们正在解决这个常见错误,是因为 “非我所创” 综合症在软件开发领域很是常见。症状包括经常重写一些常见的代码,很多开发人员都有这种症状。

    Java技术江湖
  • 由 Canal 组件分析集成中间件架构的一般过程

    为什么要做数据同步?因为数据很多,还要共享或做它用。举个栗子,你从移动硬盘拷贝一份小小电影到你的 Macbook 上赏析,也叫 数据同步。但系统不比你的单纯,它...

    xjjdog
  • Redis缓存击穿、缓存穿透、缓存雪崩

    上篇文章谈到了Redis分布式锁,实际上就是为了解释为什么做缓存采用Redis而不使用map/guava。缓存分为本地缓存和分布式缓存。以 Java 为例,使...

    逆月翎

扫码关注云+社区

领取腾讯云代金券