前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据测试能力--大数据开发技术(下)

大数据测试能力--大数据开发技术(下)

作者头像
rainbowzhouj
发布2023-03-16 14:52:50
4930
发布2023-03-16 14:52:50
举报
文章被收录于专栏:rainbowzhou的成长足迹

计算层

Hadoop 生态系统中具有大量应用程序和执行引擎,提供了多种可满足您的分析工作负载需求的工具。

针对不同的数据处理需求,有多种计算模式,有代表性的大数据计算模式包括:批处理计算框架MapReduce、Tez,流处理框架Storm、Flink;混合处理框架Spark;查询分析框架Hive、Spark SQL、Flink SQL和Pig等。

如上图所示,MapReduce 是大数据批处理框架,其并行计算、将编程框架抽象化或模型化、架构统一的设计思想,使之成为经典的大数据批处理框架。关于MapReduce,我们需掌握其安装与部署,系统架构与工作机制,设计思想,编程模型,应用场景及特点等。Tez可用作执行引擎来代替 Hadoop MapReduce。

如上图所示,Storm与Flink是流处理框架。

  • Storm是一个免费的、开源的分布式实时计算系统。Storm不仅可以用于实时分析,还可以用于在线机器学习、持续计算、分布式远程调用和ETL过程等。
  • Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。

如上图所示,Spark 是混合处理框架。Spark是一个专门为大规模数据处理而设计的快速且通用的计算引擎。

如上图所示,Hive、Impala、Presto是常见的查询分析框架。

  • Hive是建立在Hadoop之上的数据仓库基础架构,常用于数据分析,对实时性要求不高。
  • Impala是Cloudera推出的用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎,与其他Hadoop的SQL引擎相比,他的查询性能较高、延时性较低,为访问存储在Hadoop分布式文件系统中数据提供里较快的手段。
  • Presto是由Facebook开源的分布式SQL查询引擎,适用于交互式分析查询,支持GB到PB的数据量。

对于大数据管理调度,我们可重点了解YARN、Zookeeper等,如下图所示。YARN是一个资源调度平台,负责为运算程序提供服务器运算资源。Zookeeper是一个开源的、分布式的、为分布式应用提供协助服务的大数据框架。关于任务调度框架,我们需要了解Azkaban、Oozie和Airflow等。关于集群部署和监控,我们需要了解Ambari和Cloudera Manager。

推荐的学习资源:《HBase权威指南》《Hive编程指南》《Spark快速大数据分析》《Spark机器学习》《从Paxos到Zookeeper:分布式一致性原理与实践》和《深入浅出数据分析》等。

工具层

工具层包括但不限于快速/定制报表,Zeppelin,Kylin,Jupyter等。

  • 快速/定制报表,这里着重介绍的是BI报表。BI是一套完整的解决方案,其通过将企业现有的数据进行有效的集成后,通过报表的形式,快速且准确的展示,为企业决策提供依据。BI报表是BI工具的实体。BI报表只是BI的一部分。
  • Zeppelin(Apache Zeppelin)是一款基于Web的Notebook产品,能够交互式数据分析。使用Zeppelin,您可以使用丰富的预构建语言后端(或解释器)制作交互式的协作文档,例如Scala、Python、SparkSQL、Hive等。
  • Kylin(Apache Kylin)是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
  • Jupyter,全称为Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享程序文档,支持实时代码,数学方程,可视化和 markdown。

服务层

服务层包括但不限于数据挖掘,智能算法,事件分析,数据服务等。

  • 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
  • 在工程实践中,经常会接触到一些比较“新颖”的算法或理论,比如模拟退火,遗传算法,禁忌搜索,神经网络等。这些算法或理论都有一些共同的特性(比如模拟自然过程),通称为“智能算法”。
  • 事件分析是基于事件的指标统计分析,并在分组、筛选等条件下进行下钻分析,能够帮助企业了解用户使用产品的情况,进一步挖掘影响指标变化的主要因素。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 rainbowzhou的成长足迹 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 工具层
  • 服务层
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档