暴走大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏成员

298

文章

585450

阅读量

100

订阅数

基于Seatunnel连通Hive和ClickHouse实战

编程算法 spark hive jquery hadoop

官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11

大数据真好玩

2022-06-17

2.3K0

大数据权限管理框架：Apache Sentry和Ranger

hive apache 大数据

本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。

大数据真好玩

2022-03-28

1.3K0

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

大数据真好玩

2021-11-05

2.8K0

Hive重点难点：Hive原理&优化&面试(上)

hive sql 数据库 mapreduce

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

大数据真好玩

2021-10-25

1.2K0

【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇

云数据库 SQL Server sql spark 数据库 hive

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生。

大数据真好玩

2021-09-18

2.3K0

Hive文件存储格式和Hive数据压缩小总结

存储 hadoop 文件存储 hive mapreduce

HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。

大数据真好玩

2021-09-18

1.2K0

Flink集成Iceberg小小实战

hive html flink sql 大数据

Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.

大数据真好玩

2021-07-30

5.7K1

实时数仓建设思考与方案记录

大数据 flink kafka sql hive

随着我司业务飞速增长，实时数仓的建设已经提上了日程。虽然还没有正式开始实施，但是汲取前人的经验，做好万全的准备总是必要的。本文简单松散地记录一下想法，不涉及维度建模方法论的事情（这个就老老实实去问Kimball他老人家吧）。

大数据真好玩

2021-05-28

9600

新手友好 | Hadoop-架构、原理、实时计算和离线计算

hadoop 分布式 hive 大数据数据分析

一、什么是Hadoop 二、Hadoop各个组件的作用三、Hadoop核心组件的架构 3.1、HDFS 3.2、MapReduce 3.3、YARN 四、实时计算和离线计算的过程

大数据真好玩

2021-05-08

1K0

Flink结合Kafka实时写入Iceberg实践笔记

hive flink hadoop 大数据 kafka

环境：本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1

大数据真好玩

2021-03-27

1.7K0

代达罗斯之殇-大数据领域小文件问题解决攻略

文件存储 hive hadoop 大数据 spark

海量小文件问题是工业界和学术界公认的难题，大数据领域中的小文件问题，也是一个非常棘手的问题，仅次于数据倾斜问题，对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案，给大家还原一个大数据系统中小文件问题的系统性解决方案。

大数据真好玩

2021-01-26

1.4K0

【大数据哔哔集20210117】Hive大表关联小表到底该怎么做

当一个大表和一个或多个小表做JOIN时，最好使用MAPJOIN，性能比普通的JOIN要快很多。另外，MAPJOIN 还能解决数据倾斜的问题。MAPJOIN的基本原理是：在小数据量情况下，SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中，从而加快JOIN的执行速度。

大数据真好玩

2021-01-21

2.5K0

【大数据哔哔集20210113】Hive的动态分区和静态分区

linux hive sql node.js xml

静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断。详细来说，静态分区的列实在编译时期，通过用户传递来决定的；动态分区只有在SQL执行时才能决定。不难看出，Hive分区主要是以缩小数据查询范围，提高查询速度和性能的。

大数据真好玩

2021-01-21

1.4K0

【大数据哔哔集20210111】HDFS中的常用压缩算法及区别

hadoop mapreduce javascript hive 文件存储

sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器，把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储，SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。

大数据真好玩

2021-01-21

1.1K0

漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。

大数据真好玩

2020-11-25

15.1K3

Apache Calcite原理极简入门

express hive html mapreduce

Apache Calcite 是独立于存储与执行的SQL解析、优化引擎，广泛应用于各种离线、搜索、实时查询引擎，如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化，解析calcite优化引擎的实现原理。

大数据真好玩

2020-06-07

2.4K0

Kylin在用户行为轨迹分析中的应用实践与优化

hbase TDSQL MySQL 版 sql hive

2015年12月8日，Apache Kylin 从 Apache 孵化器项目毕业，正式升级为顶级项目，也是第一个由中国团队完整贡献到 Apache 的顶级项目。kylin的诞生，为大数据高效的olap查询提供解决方案，主要由以下特点：

大数据真好玩

2020-02-19

1.1K0

揭秘大数据时代秒级查询响应引擎的架构设计

数据库 sql 数据处理 hive 大数据

近年来，大数据技术发展迅速，从过去的 Hive、Spark，到现在的 Flink、ClickHouse、Iceberg 等，各种大数据技术推陈出新，不断演进大数据存储和引擎系统的架构，来适应大数据时代的海量数据处理需求。

大数据真好玩

2020-02-11

1.3K0

以后千万别面试卡壳 | Hive调优的12种方式

mapreduce jvm hive 大数据

distinct会将b列所有的数据保存到内存中，形成一个类似hash的结构，速度是十分的块；但是在大数据背景下，因为b列所有的值都会形成以key值，极有可能发生OOM

大数据真好玩

2020-02-11

9580

系列 | Spark之数据倾斜调优

spark hive 数据分析

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

大数据真好玩

2019-10-15

4780

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态