腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
暴走大数据
专栏作者
举报
298
文章
534240
阅读量
99
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
spark
数据库
编程算法
存储
kafka
flink
java
node.js
文件存储
hive
缓存
hadoop
api
hbase
mapreduce
TDSQL MySQL 版
数据处理
linux
apache
数据结构
云数据库 Redis
分布式
rpc
javascript
云数据库 SQL Server
网络安全
https
数据分析
unix
zookeeper
http
jvm
bash
yarn
html
bash 指令
消息队列 CMQ 版
vr 视频解决方案
Elasticsearch Service
搜索引擎
开源
面向对象编程
es
python
scala
打包
lucene/solr
批量计算
网站
数据安全
hashmap
tcp/ip
数据湖
负载均衡
xml
jquery
电商
企业
kubernetes
运维
rabbitmq
uml
云计算
任务调度
raft
php
ide
github
负载均衡缓存
nginx
腾讯云测试服务
日志数据
数据迁移
socket编程
windows
架构设计
微服务
processing
费用中心
其他
官方文档
机器学习
ios
iphone
c 语言
c++
servlet
bootstrap
json
ajax
android
oracle
jar
全文检索
analyzer
容器镜像服务
云数据迁移
短视频
命令行工具
腾讯计费
数据备份
express
容器
parcel
压力测试
shell
jdk
sql server
jdbc
grep
markdown
kerberos
微信
数据可视化
mqtt
ipv6
数据湖分析
clickhouse
count
flush
init
invoke
io
ip
map
merge
olap
parquet
partition
queue
record
session
sign
state
task
tdd
view
zk
实践
数据
统计
异步
搜索文章
搜索
搜索
关闭
基于Seatunnel连通Hive和ClickHouse实战
编程算法
spark
hive
jquery
hadoop
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
大数据真好玩
2022-06-17
2K
0
【Spark重点难点】你从未深入理解的RDD和关键角色
spark
flink
大数据
分布式
编程算法
之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这里的部分:
大数据真好玩
2021-12-02
410
0
SparkSQL并行执行多个Job的探索
spark
sql
数据库
编程算法
linux
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
大数据真好玩
2021-11-16
1.4K
0
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
linux
spark
hive
sql
mapreduce
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
大数据真好玩
2021-11-05
2K
0
Hive重点难点:Hive原理&优化&面试(下)
spark
sql
数据库
存储
文件存储
Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。
大数据真好玩
2021-10-25
1.4K
0
昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)
javascript
vr 视频解决方案
spark
大数据
存储
OK,我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢?
大数据真好玩
2021-10-12
450
0
Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用
sql
spark
1、Spark SQL自定义函数就是可以通过scala写一个类,然后在SparkSession上注册一个函数并对应这个类,然后在SQL语句中就可以使用该函数了,首先定义UDF函数,那么创建一个SqlUdf类,并且继承UDF1或UDF2等等,UDF后边的数字表示了当调用函数时会传入进来有几个参数,最后一个R则表示返回的数据类型,如下图所示:
大数据真好玩
2021-09-18
3K
0
Apache Spark 内存管理(堆内/堆外)详解
文件存储
存储
jvm
缓存
spark
本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。
大数据真好玩
2021-09-18
1.1K
0
【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇
云数据库 SQL Server
sql
spark
数据库
hive
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。
大数据真好玩
2021-09-18
2.2K
0
我们在学习Spark的时候,到底在学习什么?
编程算法
数据处理
大数据
存储
spark
Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。
大数据真好玩
2021-07-08
425
0
Apache Iceberg技术调研&在各大公司的实践应用大总结
flink
数据处理
spark
数据湖分析
数据湖
作者在实际工作中调研了Iceberg的一些优缺点和在各大厂的应用,总结在下面。希望能给大家带来一些启示。
大数据真好玩
2021-07-07
3.7K
0
Apache Spark 3.0 自适应查询优化在网易的深度实践及改进
mapreduce
sql
spark
本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易有数在 AQE 实践中遇到的痛点和做出的思考。
大数据真好玩
2021-07-07
796
0
一篇并不起眼的Spark面试题
spark
数据库
sql
大数据
数据分析
spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别
大数据真好玩
2021-07-07
4.5K
0
简单回答:SparkSQL数据抽象和SparkSQL底层执行过程
python
spark
api
sql
数据库
就易用性而言,对比传统的MapReduce API,Spark的RDD API有了数量级的飞跃并不为过。然而,对于没有MapReduce和函数式编程经验的新手来说,RDD API仍然存在着一定的门槛。
大数据真好玩
2021-05-28
1.8K
0
Spark报错与日志问题查询姿势指南
spark
数据库
sql
c 语言
c++
可以在右侧搜索框中填对应application号找到任务,然后点击对应的application号链接,如下图所示:
大数据真好玩
2021-05-08
1.8K
0
数据倾斜?Spark 3.0 AQE专治各种不服(上)
spark
sql
大数据
Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在Spark SQL上,SQL优化里最引人注意的非Adaptive Query Execution莫属了。
大数据真好玩
2021-02-23
2.6K
0
数据倾斜?Spark 3.0 AQE专治各种不服(下)
批量计算
spark
FreeWheel团队通过高效的敏捷开发赶在 2020 年圣诞广告季之前在生产环境顺利发布上线,整体性能提升高达 40%(对于大 batch)的数据,AWS Cost 平均节省 25%~30%之间,大约每年至少能为公司节省百万成本。
大数据真好玩
2021-02-23
1K
0
【大数据哔哔集20210117】Spark面试题灵魂40问
spark
大数据
编程算法
缓存
kafka
1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor
大数据真好玩
2021-01-26
807
0
【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同?
mapreduce
spark
大数据
数据结构
linux
Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前,具体可以分为map端和reduce端前后两个部分。
大数据真好玩
2021-01-26
780
0
代达罗斯之殇-大数据领域小文件问题解决攻略
文件存储
hive
hadoop
大数据
spark
海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一个大数据系统中小文件问题的系统性解决方案。
大数据真好玩
2021-01-26
1.3K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档