腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
暴走大数据
专栏成员
举报
298
文章
585450
阅读量
100
订阅数
订阅专栏
申请加入专栏
全部文章(298)
大数据(118)
sql(66)
spark(66)
数据库(47)
编程算法(45)
存储(39)
kafka(39)
flink(39)
java(30)
node.js(29)
文件存储(24)
hive(23)
缓存(22)
hadoop(21)
api(16)
hbase(16)
mapreduce(15)
TDSQL MySQL 版(15)
数据处理(15)
linux(14)
apache(14)
数据结构(14)
云数据库 Redis(13)
分布式(13)
rpc(13)
javascript(12)
云数据库 SQL Server(12)
网络安全(12)
https(12)
数据分析(11)
unix(10)
zookeeper(10)
http(9)
jvm(9)
bash(8)
yarn(8)
html(7)
bash 指令(7)
消息队列 CMQ 版(7)
vr 视频解决方案(6)
Elasticsearch Service(6)
搜索引擎(5)
开源(5)
面向对象编程(5)
es(5)
python(4)
scala(4)
打包(4)
lucene/solr(4)
批量计算(4)
网站(4)
数据安全(4)
hashmap(4)
tcp/ip(4)
数据湖(4)
负载均衡(3)
xml(3)
jquery(3)
电商(3)
企业(3)
kubernetes(3)
运维(3)
rabbitmq(3)
uml(3)
云计算(3)
任务调度(3)
raft(3)
php(2)
ide(2)
github(2)
负载均衡缓存(2)
nginx(2)
腾讯云测试服务(2)
日志数据(2)
数据迁移(2)
socket编程(2)
windows(2)
架构设计(2)
微服务(2)
processing(2)
费用中心(1)
其他(1)
官方文档(1)
机器学习(1)
ios(1)
iphone(1)
c 语言(1)
c++(1)
servlet(1)
bootstrap(1)
json(1)
ajax(1)
android(1)
oracle(1)
jar(1)
全文检索(1)
analyzer(1)
容器镜像服务(1)
云数据迁移(1)
短视频(1)
命令行工具(1)
腾讯计费(1)
数据备份(1)
express(1)
容器(1)
parcel(1)
压力测试(1)
shell(1)
jdk(1)
sql server(1)
jdbc(1)
grep(1)
markdown(1)
kerberos(1)
微信(1)
数据可视化(1)
mqtt(1)
ipv6(1)
数据湖分析(1)
clickhouse(1)
count(1)
flush(1)
init(1)
invoke(1)
io(1)
ip(1)
map(1)
merge(1)
olap(1)
parquet(1)
partition(1)
queue(1)
record(1)
session(1)
sign(1)
state(1)
task(1)
tdd(1)
view(1)
zk(1)
实践(1)
数据(1)
统计(1)
异步(1)
搜索文章
搜索
搜索
关闭
基于Seatunnel连通Hive和ClickHouse实战
编程算法
spark
hive
jquery
hadoop
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
大数据真好玩
2022-06-17
2.3K
0
大数据权限管理框架:Apache Sentry和Ranger
hive
apache
大数据
本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。
大数据真好玩
2022-03-28
1.3K
0
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
linux
spark
hive
sql
mapreduce
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
大数据真好玩
2021-11-05
2.8K
0
Hive重点难点:Hive原理&优化&面试(上)
hive
sql
数据库
mapreduce
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。
大数据真好玩
2021-10-25
1.2K
0
【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇
云数据库 SQL Server
sql
spark
数据库
hive
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。
大数据真好玩
2021-09-18
2.3K
0
Hive文件存储格式和Hive数据压缩小总结
存储
hadoop
文件存储
hive
mapreduce
HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。
大数据真好玩
2021-09-18
1.2K
0
Flink集成Iceberg小小实战
hive
html
flink
sql
大数据
Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.
大数据真好玩
2021-07-30
5.7K
1
实时数仓建设思考与方案记录
大数据
flink
kafka
sql
hive
随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。
大数据真好玩
2021-05-28
960
0
新手友好 | Hadoop-架构、原理、实时计算和离线计算
hadoop
分布式
hive
大数据
数据分析
一、什么是Hadoop 二、Hadoop各个组件的作用 三、Hadoop核心组件的架构 3.1、HDFS 3.2、MapReduce 3.3、YARN 四、实时计算和离线计算的过程
大数据真好玩
2021-05-08
1K
0
Flink结合Kafka实时写入Iceberg实践笔记
hive
flink
hadoop
大数据
kafka
环境:本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1
大数据真好玩
2021-03-27
1.7K
0
代达罗斯之殇-大数据领域小文件问题解决攻略
文件存储
hive
hadoop
大数据
spark
海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一个大数据系统中小文件问题的系统性解决方案。
大数据真好玩
2021-01-26
1.4K
0
【大数据哔哔集20210117】Hive大表关联小表到底该怎么做
hive
sql
当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。另外,MAPJOIN 还能解决数据倾斜的问题。MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。
大数据真好玩
2021-01-21
2.5K
0
【大数据哔哔集20210113】Hive的动态分区和静态分区
linux
hive
sql
node.js
xml
静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。不难看出,Hive分区主要是以缩小数据查询范围,提高查询速度和性能的。
大数据真好玩
2021-01-21
1.4K
0
【大数据哔哔集20210111】HDFS中的常用压缩算法及区别
hadoop
mapreduce
javascript
hive
文件存储
sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。
大数据真好玩
2021-01-21
1.1K
0
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
hive
大数据
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
大数据真好玩
2020-11-25
15.1K
3
Apache Calcite原理极简入门
express
hive
html
mapreduce
Apache Calcite 是独立于存储与执行的SQL解析、优化引擎,广泛应用于各种离线、搜索、实时查询引擎,如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化,解析calcite优化引擎的实现原理。
大数据真好玩
2020-06-07
2.4K
0
Kylin在用户行为轨迹分析中的应用实践与优化
hbase
TDSQL MySQL 版
sql
hive
2015年12月8日,Apache Kylin 从 Apache 孵化器项目毕业,正式升级为顶级项目,也是第一个由中国团队完整贡献到 Apache 的顶级项目。kylin的诞生,为大数据高效的olap查询提供解决方案,主要由以下特点:
大数据真好玩
2020-02-19
1.1K
0
揭秘大数据时代秒级查询响应引擎的架构设计
数据库
sql
数据处理
hive
大数据
近年来,大数据技术发展迅速,从过去的 Hive、Spark,到现在的 Flink、ClickHouse、Iceberg 等,各种大数据技术推陈出新,不断演进大数据存储和引擎系统的架构,来适应大数据时代的海量数据处理需求。
大数据真好玩
2020-02-11
1.3K
0
以后千万别面试卡壳 | Hive调优的12种方式
mapreduce
jvm
hive
大数据
distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM
大数据真好玩
2020-02-11
958
0
系列 | Spark之数据倾斜调优
spark
hive
数据分析
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
大数据真好玩
2019-10-15
478
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档