专栏首页黑泽君的专栏大数据技术之_27_电商平台数据分析项目_01_大数据的框架回顾 + 大数据的企业应用

大数据技术之_27_电商平台数据分析项目_01_大数据的框架回顾 + 大数据的企业应用

一 大数据的框架回顾二 大数据的企业应用


一 大数据的框架回顾

Hadoop job 提交简图 或 YARN 架构 或 YARN 工作机制 或 job 提交流程 0、job 提交简图

1、YARN 架构

2、YARN 工作机制

3、job 提交流程源码解析图解

MapReduce 的 Shuffle 过程介绍

  Shuffle 的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。
  MapReduce 中的 Shuffle 更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。
  为什么 MapReduce 计算模型需要 Shuffle 过程?我们都知道 MapReduce 计算模型一般包括两个重要的阶段:Map 是映射,负责数据的过滤分发;Reduce 是规约,负责数据的计算归并。
  Reduce 的数据来源于 Map,Map 的输出即是 Reduce 的输入,Reduce 需要通过 Shuffle来 获取数据。
  从 Map 输出到 Reduce 输入的整个过程可以广义地称为 Shuffle。Shuffle 横跨 Map 端和 Reduce 端,在 Map 端包括 Spill 过程,在 Reduce 端包括 copy 和 sort 过程,如图所示:

环形缓冲区简图


Zookeeper 使用 zookeeper 监听服务器节点动态上下线案例

Zookeeper 中维护 Kafka 时的存储结构如下:


Flume

Flume Agent 内部原理

Flume Agent 的聚合

Flume 的负载均衡


Kafka

Kafka 工作流程1

Kafka 工作流程2

Kafka 高阶消费者 和 低阶消费者


HBase

HBase 架构图

HBase 读数据流程

HBase 写数据流程


Hive 1、HQL 的编写、练习(一定要好好写!!!每天写一条!!!超级重要!!!想进大厂的必备!!!牛客网HQL题库:https://www.nowcoder.com/ta/sql) 2、Hive 的调优:https://www.cnblogs.com/chenmingjun/p/10452686.html 3、数据仓库的理论 + 简单的数仓库搭建


Sqoop Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,…) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

Sqoop 的批量导入必须要会,面试经常要问。

DataX 是阿里开源的框架,支持很多数据源之间的转化。但是只开源了单节点的源代码,分布式的代码没有开源。

支持数据库如下:


Spark

二 大数据的企业应用

应用一:数据仓库的搭建 数据仓库各层图解

数据仓库涉及到的知识点

应用二:产品信息分析

应用三:用于行为分析

应用四:人工智能基础

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 常用的大数据技术有哪些?

      参考链接:https://blog.csdn.net/lmseo5hy/article/details/79542571

    黑泽君
  • 7层OSI网络模型概述

    黑泽君
  • 大数据技术之_32_大数据面试题_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试

    一、Hive 基本面试1、什么是 metastore2、metastore 安装方式有什么区别3、什么是 Managed Table 跟 External Ta...

    黑泽君
  • 漫画:美团面试题(整数拆分)

    这两天越来越多的读者私信小浩,说觉得只看题的话,不是很系统,想让我系统的讲一讲各类数据结构。对于这个问题,我统一回复一下,首先后面肯定是有系统的讲解各类数据结构...

    程序员小浩
  • beego 前后端分离登录验证

    main.go beego前后端分离静态页面承载有点费劲,不过也好只是比gin多几句代码而已

    landv
  • 【机器学习】今日头条与大数据的初夜:机器学习和个性化发展

    大家想象一下,如果我们是一个高中生,这时候我问大家,大数据是什么?大数据就是你的初夜,大家谁的初夜是在高中时代发生的?大家请举一下手,接下来我会说四个原因,为什...

    陆勤_数据人网
  • Nexus Repository Manager 2.x 命令注入漏洞 (CVE-2019-5475) 两次绕过

    2019年9月初我们应急了Nexus Repository Manager 2.x 命令注入漏洞(CVE-2019-5475),其大致的原因和复现步骤在 hac...

    Seebug漏洞平台
  • 智能制造是什么?

    随着工业4.0的兴起,由人工智能技术、机器人技术和数字化生产制造技术等结合的智能制造技术,正引领新一轮的制造业变革。智能制造技术逐渐涉及产品设计、生产过程、生产...

    黄成甲
  • 喧嚣背后的真相:12306数据泄露事件深度分析

    恰逢春运前,铁道部12306网站“13万用户数据泄露”“快去改密码!”“32G用户数据库下载”瞬间刷爆了网络。一时间很多猜测,很多言论,很多“谣言”,很多“真相...

    FB客服
  • Windows文件下载执行的15种姿势

    当我们通过Web渗透获取了一个Shell,而且目标主机是Windows,我们该怎么去下载后门文件到目标主机上执行呢?

    Bypass

扫码关注云+社区

领取腾讯云代金券