腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Jed的技术阶梯
专栏成员
举报
220
文章
384105
阅读量
48
订阅数
订阅专栏
申请加入专栏
全部文章(220)
其他(78)
linux(29)
java(24)
编程算法(22)
云数据库 Redis(20)
http(17)
windows(17)
hadoop(16)
node.js(14)
数据库(13)
sql(11)
spark(11)
云数据库 SQL Server(10)
分布式(10)
网络安全(9)
hive(9)
zookeeper(9)
hbase(9)
jdk(8)
xml(7)
centos(7)
网站(7)
yarn(7)
大数据(7)
nginx(6)
tcp/ip(6)
es(6)
Elasticsearch Service(6)
打包(5)
apache(5)
缓存(5)
scala(4)
api(4)
jar(4)
存储(4)
jvm(4)
数据结构(4)
android(3)
ide(3)
容器镜像服务(3)
文件存储(3)
容器(3)
ssh(3)
gradle(3)
https(3)
html(2)
tomcat(2)
命令行工具(2)
腾讯云测试服务(2)
数据迁移(2)
erp(2)
jdbc(2)
hashmap(2)
安全(2)
kafka(2)
hdfs(2)
管理(2)
集合(2)
云服务器(1)
ios(1)
python(1)
javascript(1)
ruby(1)
go(1)
bash(1)
actionscript(1)
jquery(1)
json(1)
ecmascript(1)
arm(1)
oracle(1)
access(1)
maven(1)
中文分词(1)
全文检索(1)
lucene/solr(1)
analyzer(1)
ubuntu(1)
apt-get(1)
访问管理(1)
TDSQL MySQL 版(1)
SSL 证书(1)
数据备份(1)
开源(1)
shell(1)
正则表达式(1)
yum(1)
asp(1)
grep(1)
单元测试(1)
gcc(1)
lamp(1)
数据处理(1)
ipv6(1)
迁移(1)
admin(1)
aggregation(1)
case(1)
class(1)
client(1)
com(1)
count(1)
document(1)
image(1)
keystore(1)
max(1)
min(1)
mysql(1)
object(1)
project(1)
sum(1)
zip(1)
队列(1)
高可用(1)
集群(1)
排序(1)
数组(1)
主机(1)
搜索文章
搜索
搜索
关闭
Apache Kylin-2.6安装部署
hive
hbase
TDSQL MySQL 版
yarn
大数据
构建过程是一个MapReduce任务,比较耗时,构建之前确保MapReduce History Server是启动的,否则会报错
CoderJed
2021-04-13
1K
1
012.DolphinScheduler案例实战
yarn
node.js
linux
大数据
需求是,使用spark程序读用户表,统计用户个数,保存到结果表user_count:
CoderJed
2021-02-04
2K
0
004.CM大数据平台实践之常用组件安装
yarn
node.js
spark
hive
每安装完一个组件之后,CM很能会提示某些过期配置需要重启,那么重启服务即可,最终的集群状态如下:
CoderJed
2020-06-16
333
0
[hadoop-2.9.2] Capacity Scheduler
yarn
node.js
xml
网站
Capacity Scheduler 为支持多租户在共享集群上运行程序,为最大程度地提高应用程序的吞吐量,为实现集群的高利用率而生。
CoderJed
2019-05-17
1.2K
0
[hadoop-2.9.2] Fair Scheduler
actionscript
xml
yarn
node.js
Fair Scheduler会在所有运行的作业之间动态地平衡资源,第一个(大)作业启动时,它是唯一运行的作业,因而可以获得集群中的全部资源,当第二个(小)作业启动时,它可以分配到集群的一半资源,这样每个作业都能公平共享资源。
CoderJed
2019-05-15
1.6K
1
Spark on Yarn资源配置
spark
yarn
node.js
xml
工作期间,我提交spark任务到yarn上,发现指定的资源(使用内存大小。使用core的个数)总是与yarn的UI页面显示的资源使用量不一致,写本文说明一下这个问题,以及介绍一下spark on yarn的资源配置。
CoderJed
2019-05-15
2.2K
0
Spark性能调优04-数据倾斜调优
spark
yarn
sql
hive
java
数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对应10条数据,但是个别key却对应了100万条数据,那么大部分task可能就只会分配到10条数据,然后1秒钟就运行完了;但是个别task可能分配到了100万数据,要运行一两个小时。因此,整个Spark作业的运行进度是由运行时间最长的那个task决定的。
CoderJed
2018-09-13
1.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档