首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据架构

大数据架构

作者头像
伊泽瑞尔
发布2022-05-31 20:39:06
发布2022-05-31 20:39:06
4720
举报

传统以BI为主的系统,对业务数据、文本数据、其他数据进行数据的ETL过程,转换成数据立方体Cube,然后在Cube之上可以进行多种操作。随着数据量呈现爆发式增加,已不足以满足数据分析的需求。基于大数据的架构应运而生。

  • Lambda架构

Lambda架构的核心思想:

  1. 批处理层(batch):批量处理数据,生成离线结果。Apache Impala, Hive等存储。
  2. 实时处理层(real-time):实时处理在线数据,生成增量结果。Apache Cassandra, Apache HBase, Elasticsearch等存储。
  3. 服务层(serving):结合离线,在线计算结果服务于终端数据消费者的即席查询和分析。使用Druid等查询

Lambda优缺点:

优点

  1. 稳定,实时离线分开

缺点

  1. 实时与批量计算结果不一致引起的数据口径问题
  2. 需要将所有的算法实现两次,一次是为批处理系统,另一次是为实时系统,还要求查询得到的是两个系统结果的合并
  • Kappa 架构

Kappa架构的核心思想:

  1. 所有数据都走实时路线,一切皆为流
  2. 以数据湖作为最终存储地
  3. 当需要全量重新计算的时候,重新起一个流计算实例,对数据湖中存储的原始数据再次经过消息队列重新消费一次(如上图绿箭头所示)。
  • Unified架构
  1. Unified架构提供了一套数据处理和机器学习结合的架构方案,非常好的解决了机器学习平台与数据平台进行结合的问题。
  2. Unified架构实施复杂度更高,对于机器学习平台来说,从软件包到硬件部署都和数据分析平台有着非常大的差别,因此在实施过程中的难度系数更高。
  • 大数据体系架构图

上图为参考阿里巴巴大数据之路所绘制,后续会陆续介绍各个组件。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据与知识图谱 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档