腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏作者
举报
635
文章
1280143
阅读量
316
订阅数
订阅专栏
申请加入专栏
全部文章(635)
大数据(273)
sql(163)
数据库(129)
kafka(105)
spark(100)
flink(91)
编程算法(83)
apache(70)
存储(60)
hive(59)
java(52)
node.js(52)
api(52)
数据(43)
hadoop(41)
文件存储(39)
缓存(39)
hbase(36)
云数据库 SQL Server(35)
TDSQL MySQL 版(33)
数据处理(31)
分布式(29)
数据结构(28)
scala(25)
云数据库 Redis(24)
mapreduce(24)
数据分析(20)
javascript(19)
linux(19)
yarn(18)
https(18)
python(17)
网络安全(17)
unix(16)
jvm(16)
windows(16)
zookeeper(14)
打包(13)
消息队列 CMQ 版(13)
开发(13)
批量计算(12)
http(12)
bash(11)
数据湖(11)
数据迁移(10)
云计算(10)
面试(10)
xml(9)
企业(9)
数据安全(9)
Elasticsearch Service(9)
bash 指令(8)
腾讯云测试服务(8)
面向对象编程(8)
框架(8)
优化(8)
jar(7)
运维(7)
processing(7)
机器学习(6)
json(6)
日志数据(6)
开源(6)
hashmap(6)
tcp/ip(6)
rabbitmq(6)
数据可视化(6)
微服务(6)
架构(6)
html(5)
神经网络(5)
深度学习(5)
压力测试(5)
jdbc(5)
rpc(5)
nosql(4)
spring(4)
网站(4)
express(4)
sql server(4)
nest(4)
任务调度(4)
es(4)
数据集成(4)
工具(4)
配置(4)
数据管理(4)
系统(4)
性能(4)
oracle(3)
github(3)
maven(3)
人工智能(3)
vr 视频解决方案(3)
electron(3)
容器(3)
shell(3)
socket编程(3)
kerberos(3)
性能测试(3)
实时数仓(3)
测试(3)
工作(3)
行业(3)
集群(3)
内存(3)
设计(3)
实践(3)
索引(3)
原理(3)
对象存储(2)
官方文档(2)
数据挖掘(2)
css(2)
ajax(2)
android(2)
ide(2)
lucene/solr(2)
nginx(2)
容器镜像服务(2)
海外加速(2)
mongodb(2)
rollup.js(2)
kubernetes(2)
uml(2)
架构设计(2)
5g(2)
迁移(2)
clickhouse(2)
报表(2)
产品(2)
磁盘(2)
函数(2)
后端(2)
监控(2)
解决方案(2)
模型(2)
排序(2)
事件(2)
异常(2)
最佳实践(2)
负载均衡(1)
自动驾驶(1)
ios(1)
iphone(1)
php(1)
go(1)
lua(1)
erlang(1)
regex(1)
react(1)
typescript(1)
postgresql(1)
flask(1)
sqlalchemy(1)
git(1)
搜索引擎(1)
负载均衡缓存(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
腾讯云可观测平台(1)
命令行工具(1)
云数据库 MongoDB(1)
es 2(1)
图像处理(1)
数据备份(1)
电商(1)
出行(1)
serverless(1)
游戏(1)
无人驾驶(1)
jdk(1)
推荐系统(1)
markdown(1)
zabbix(1)
微信(1)
机器人(1)
物联网(1)
系统架构(1)
腾讯云开发者社区(1)
安全治理(1)
raft(1)
实时监控(1)
数据库管理(1)
流计算 Oceanus(1)
大数据存储(1)
汽车(1)
腾讯云(1)
bi(1)
bigdata(1)
block(1)
class(1)
code(1)
combine(1)
configuration(1)
csv(1)
data(1)
dp(1)
export(1)
fifo(1)
hash(1)
import(1)
ip(1)
key(1)
memory(1)
mysql(1)
netty(1)
populate(1)
properties(1)
pulsar(1)
queue(1)
rank(1)
root(1)
scheduler(1)
select(1)
state(1)
sum(1)
table(1)
task(1)
time(1)
vi(1)
window(1)
报表工具(1)
登录(1)
队列(1)
服务(1)
高性能(1)
管理(1)
规范化(1)
基础(1)
架构师(1)
接口(1)
连接(1)
日志(1)
入门(1)
实时计算(1)
数据采集(1)
数据同步(1)
算法(1)
微信公众号(1)
线程(1)
效率(1)
协议(1)
研发(1)
语法(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
Spark3.0核心调优参数小总结
spark
bash
bash 指令
linux
vr 视频解决方案
基础配置 spark.executor.memory 指定Executor memory,也就是Executor可用内存上限 spark.memory.offHeap.enabled 堆外内存启用开关 spark.memory.offHeap.size 指定堆外内存大小 spark.memory.fraction 堆内内存中,Spark缓存RDD和计算的比例 spark.memory.storageFraction Spark缓存RDD的内存占比,相应的执行内存比例为1 - spark.memory.st
王知无-import_bigdata
2021-12-28
1.6K
0
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
linux
spark
hive
sql
mapreduce
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。
王知无-import_bigdata
2021-10-27
2.9K
0
Data Mesh,数据网格的道与术
大数据
linux
微服务
分布式
周末的时候,看到有群友讨论关于 Data Mesh 的话题。这个名词我在2020年初的时候听到过一次,当时感觉就是一个概念,看的糊里糊涂,没有当回事。最近突然又被推上了话题风口,所以静下心来看了一下相关的论文和介绍。
王知无-import_bigdata
2021-07-12
908
0
实操 | Flink1.12.1通过Table API / Flink SQL读取HBase2.4.0
flink
大数据
hbase
maven
linux
昨天群里有人问 Flink 1.12 读取Hbase的问题,于是看到这篇文章分享给大家。本文作者Ashiamd。
王知无-import_bigdata
2021-05-07
2.5K
1
Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台
flink
大数据
java
linux
yarn
目前开发Flink的方式有很多,一般来说都是开发同学写JAVA/SCALA/PYTHON项目,然后提交到集群上运行。这种做法较为灵活,因为你在代码里面可以写任务东西,什么维表JOIN、参数调优,都能很轻松的搞定。但是对开发同学的要求较高,有一定的学习成本。比如有些同学擅长JAVA,有些擅长PYTHON,而在我们的项目开发过程中,是不会允许多种语言共存的,一般来说都是选择JAVA作为我们的开发语言,那么,对于擅长PYTHON的同学来说,再从头开始攀爬JAVA这座大山,而且还得短期能够熟练使用,无疑是难上加难。
王知无-import_bigdata
2021-03-15
4.3K
0
真·屠龙之术 | 一次SparkSQL性能分析与优化之旅及相关工具小结
linux
java
编程算法
官方文档
jvm
本文是一个OLAP数据源接入到SparkSQL并进行优化的过程。本文总结了调优过程当中一些可以借鉴与讨论的地方,鉴于本人水平有限,还请有这方面调优经验的同学不吝赐教。
王知无-import_bigdata
2021-01-06
1.1K
0
Hive常用参数调优十二板斧
mapreduce
linux
编程算法
大数据
hive
hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数
王知无-import_bigdata
2020-12-08
2K
0
Hive性能调优 | 数据倾斜
mapreduce
hadoop
大数据
linux
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。针对上面的第4条 假设有这样一个任务:
王知无-import_bigdata
2020-11-06
728
0
Hive性能调优 | Fetch抓取
linux
hive
mapreduce
大数据
我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。
王知无-import_bigdata
2020-11-06
522
0
Spark常见错误问题汇总
大数据
node.js
spark
java
linux
一.SparkSQL相关 在执行insert 语句时报错,堆栈信息为:FileSystem closed。常常出现在ThriftServer里面。 原因:由于hadoop FileSystem.get 获得的FileSystem会从缓存加载,如果多线程一个线程closedFileSystem会导致该BUG 解决方法:hdfs存在不从缓存加载的解决方式,在hdfs-site.xml 配置 fs.hdfs.impl.disable.cache=true即可 在执行Spark过程中抛出:Failed to big
王知无-import_bigdata
2020-07-21
3.7K
0
Spark-submit 参数调优完整攻略
linux
spark
bash
bash 指令
该参数主要用于设置该应用总共需要多少executors来执行,Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数,并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况,太少了无法充分利用集群资源,太多了则难以分配需要的资源。
王知无-import_bigdata
2020-07-21
2.7K
0
浅谈Linux cgroup机制与YARN的CPU资源隔离
文件存储
yarn
bash
bash 指令
linux
我们在生产环境中经常可以发现有计算密集型任务争用NodeManager的CPU,以及个别Container消耗太多CPU资源导致其他系统服务抖动的情况。好在Hadoop 2.2版本之后,YARN通过利用Linux系统的cgroup机制支持了CPU资源隔离。本文先简单看看cgroup,然后分析一下YARN的CPU资源隔离的方案。
王知无-import_bigdata
2020-06-28
2.6K
1
Spark Streaming官方编程指南
spark
linux
文件存储
编程算法
批量计算
Spark Streaming(下称streaming)是Spark core的拓展,一个易扩展、高吞吐、高容错的流式数据处理系统。
王知无-import_bigdata
2020-06-11
715
0
Spark性能优化总结
spark
python
缓存
linux
mapreduce
Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。通过都会将数据序列化,降低其内存memory和网络带宽shuffle的消耗。
王知无-import_bigdata
2020-04-02
1.2K
0
Spark面对OOM问题的解决方法及优化总结
spark
linux
hbase
TDSQL MySQL 版
map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,repartition等操作。后面先总结一下我对Spark内存模型的理解,再总结各种OOM的情况相对应的解决办法和性能优化方面的总结。如果理解有错,希望在评论中指出。
王知无-import_bigdata
2019-12-24
2.9K
0
这个面试问题很难么 | 如何处理大数据中的数据倾斜
spark
linux
mapreduce
hadoop
大数据
数据倾斜是我们在处理大数据量问题时绕不过去的问题,也是在面试中几乎必问的考点。 正常的数据分布理论上都是倾斜的,就是我们所说的'二八原理':80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。
王知无-import_bigdata
2019-11-18
1.1K
0
聊聊page cache与Kafka之间的事儿
缓存
kafka
linux
jvm
关于Kafka的一个灵魂拷问:它为什么这么快? 或者说,为什么它能做到如此大的吞吐量和如此低的延迟?
王知无-import_bigdata
2019-08-16
4.9K
0
Hadoop所支持的几种压缩格式
文件存储
hadoop
javascript
linux
mapreduce
优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。
王知无-import_bigdata
2019-04-24
2.3K
0
大数据成神之路-Linux基础
大数据
linux
真正的大数据工程师,linux命令是横着写很长,不是一句一句执行的,尤其是需要检测cpu,内存,网络IO等各种开销,就需要掌握各种命令,命令主要分为这几种,一是查看各种进程的相关信息,其中包括cpu或者内存等从高到底,或者是前十等等。二是排查故障,结合linux和java的各种命令快速定位到问题出现的关键地方。三是排除系统长时间使用过慢原因等。
王知无-import_bigdata
2019-03-05
552
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档