五分钟学大数据

LV1
发表了文章

Elasticsearch的基本概念及架构剖析

Elaticsearch,简称为ES, ES是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理...

五分钟学大数据
发表了文章

精选Hadoop高频面试题17道,附答案详细解析(好文收藏)

hadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。

五分钟学大数据
发表了文章

精选Hive高频面试题11道,附答案详细解析(好文收藏)

Hive支持索引(3.0版本之前),但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。并且Hive索引提供的功能很有限,效率也...

五分钟学大数据
发表了文章

一文学会Hive解析Json数组(好文收藏)

在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数...

五分钟学大数据
发表了文章

Hive千亿级数据倾斜解决方案(好文收藏)

数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”,为什么...

五分钟学大数据
发表了文章

以直播平台监控用户弹幕为例详解 Flink CEP

我们在看直播的时候,不管对于主播还是用户来说,非常重要的一项就是弹幕文化。为了增加直播趣味性和互动性, 各大网络直播平台纷纷采用弹窗弹幕作为用户实时交流的方式,...

五分钟学大数据
发表了文章

Hive企业级性能优化(好文建议收藏)

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。

五分钟学大数据
发表了文章

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

本文开始先简单理解两种建模的核心思想,然后根据一个具体的例子,分别使用这两种建模方式进行建模,大家便会一目了然!

五分钟学大数据
发表了文章

MPP大规模并行处理架构详解

这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、...

五分钟学大数据
发表了文章

美团优选大数据开发岗面试真题-附答案详细解析

这样的自我介绍还不如前段时间流行的一句话:“我叫xx,我喜欢唱跳、rap、篮球。”起码你还让面试官知道了你的特长。

五分钟学大数据
发表了文章

硬核!一文学完Flink流计算常用算子(Flink算子大全)

Flink和Spark类似,也是一种一站式处理的框架;既可以进行批处理(DataSet),也可以进行实时处理(DataStream)。

五分钟学大数据
发表了文章

上万字详解Spark Core(好文建议收藏)

Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从...

五分钟学大数据
发表了文章

万字详解整个数据仓库建设体系(好文值得收藏)

英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support...

五分钟学大数据
发表了文章

Spark性能调优-Shuffle调优及故障排除篇(万字好文)

在划分stage时,最后一个stage称为FinalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStag...

五分钟学大数据
发表了文章

一文学完所有的Hive Sql(两万字最全详解)

lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral v...

五分钟学大数据
发表了文章

Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)

在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示:

五分钟学大数据
发表了文章

纯干货 | 深入剖析 HDFS 3.x 新特性-纠删码

HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机...

五分钟学大数据
发表了文章

面试系列二:精选大数据面试真题JVM专项-附答案详细解析

大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点—融会贯通);专项型(一篇文章针对某个框架进行深入解析—专项演练)。

五分钟学大数据
发表了文章

结合公司业务分析离线数仓建设

公司属于金融科技ToC企业,针对不同需求的用户开发不同的产品,所以公司内部有很多条业务线,但是对于数据部门来说,所有业务线的数据都是数据源。对数据的划分不只是根...

五分钟学大数据
发表了文章

系列文章一:精选大数据面试真题10道(混合型)-附答案详细解析

大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点—融会贯通);专项型(一篇文章针对某个框架进行深入解析—专项演练)。

五分钟学大数据

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券