首页
学习
活动
专区
工具
TVP
发布

暴走大数据

专栏成员
298
文章
584565
阅读量
100
订阅数
基于Seatunnel连通Hive和ClickHouse实战
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
大数据真好玩
2022-06-17
2.3K0
大数据权限管理框架:Apache Sentry和Ranger
本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。
大数据真好玩
2022-03-28
1.3K0
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
大数据真好玩
2021-11-05
2.7K0
Hive重点难点:Hive原理&优化&面试(上)
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。
大数据真好玩
2021-10-25
1.2K0
【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。
大数据真好玩
2021-09-18
2.3K0
Hive文件存储格式和Hive数据压缩小总结
HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。
大数据真好玩
2021-09-18
1.2K0
Flink集成Iceberg小小实战
Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.
大数据真好玩
2021-07-30
5.7K1
实时数仓建设思考与方案记录
随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。
大数据真好玩
2021-05-28
9590
新手友好 | Hadoop-架构、原理、实时计算和离线计算
一、什么是Hadoop 二、Hadoop各个组件的作用 三、Hadoop核心组件的架构 3.1、HDFS 3.2、MapReduce 3.3、YARN 四、实时计算和离线计算的过程
大数据真好玩
2021-05-08
1K0
Flink结合Kafka实时写入Iceberg实践笔记
环境:本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1
大数据真好玩
2021-03-27
1.7K0
代达罗斯之殇-大数据领域小文件问题解决攻略
海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一个大数据系统中小文件问题的系统性解决方案。
大数据真好玩
2021-01-26
1.4K0
【大数据哔哔集20210117】Hive大表关联小表到底该怎么做
当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。另外,MAPJOIN 还能解决数据倾斜的问题。MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。
大数据真好玩
2021-01-21
2.5K0
【大数据哔哔集20210113】Hive的动态分区和静态分区
静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。不难看出,Hive分区主要是以缩小数据查询范围,提高查询速度和性能的。
大数据真好玩
2021-01-21
1.4K0
【大数据哔哔集20210111】HDFS中的常用压缩算法及区别
sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。
大数据真好玩
2021-01-21
1.1K0
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
大数据真好玩
2020-11-25
15.1K3
Apache Calcite原理极简入门
Apache Calcite 是独立于存储与执行的SQL解析、优化引擎,广泛应用于各种离线、搜索、实时查询引擎,如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化,解析calcite优化引擎的实现原理。
大数据真好玩
2020-06-07
2.4K0
Kylin在用户行为轨迹分析中的应用实践与优化
2015年12月8日,Apache Kylin 从 Apache 孵化器项目毕业,正式升级为顶级项目,也是第一个由中国团队完整贡献到 Apache 的顶级项目。kylin的诞生,为大数据高效的olap查询提供解决方案,主要由以下特点:
大数据真好玩
2020-02-19
1.1K0
揭秘大数据时代秒级查询响应引擎的架构设计
近年来,大数据技术发展迅速,从过去的 Hive、Spark,到现在的 Flink、ClickHouse、Iceberg 等,各种大数据技术推陈出新,不断演进大数据存储和引擎系统的架构,来适应大数据时代的海量数据处理需求。
大数据真好玩
2020-02-11
1.3K0
以后千万别面试卡壳 | Hive调优的12种方式
distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM
大数据真好玩
2020-02-11
9580
系列 | Spark之数据倾斜调优
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
大数据真好玩
2019-10-15
4780
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档