腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Jed的技术阶梯
专栏成员
举报
220
文章
384247
阅读量
48
订阅数
订阅专栏
申请加入专栏
全部文章(220)
其他(78)
linux(29)
java(24)
编程算法(22)
云数据库 Redis(20)
http(17)
windows(17)
hadoop(16)
node.js(14)
数据库(13)
sql(11)
spark(11)
云数据库 SQL Server(10)
分布式(10)
网络安全(9)
hive(9)
zookeeper(9)
hbase(9)
jdk(8)
xml(7)
centos(7)
网站(7)
yarn(7)
大数据(7)
nginx(6)
tcp/ip(6)
es(6)
Elasticsearch Service(6)
打包(5)
apache(5)
缓存(5)
scala(4)
api(4)
jar(4)
存储(4)
jvm(4)
数据结构(4)
android(3)
ide(3)
容器镜像服务(3)
文件存储(3)
容器(3)
ssh(3)
gradle(3)
https(3)
html(2)
tomcat(2)
命令行工具(2)
腾讯云测试服务(2)
数据迁移(2)
erp(2)
jdbc(2)
hashmap(2)
安全(2)
kafka(2)
hdfs(2)
管理(2)
集合(2)
云服务器(1)
ios(1)
python(1)
javascript(1)
ruby(1)
go(1)
bash(1)
actionscript(1)
jquery(1)
json(1)
ecmascript(1)
arm(1)
oracle(1)
access(1)
maven(1)
中文分词(1)
全文检索(1)
lucene/solr(1)
analyzer(1)
ubuntu(1)
apt-get(1)
访问管理(1)
TDSQL MySQL 版(1)
SSL 证书(1)
数据备份(1)
开源(1)
shell(1)
正则表达式(1)
yum(1)
asp(1)
grep(1)
单元测试(1)
gcc(1)
lamp(1)
数据处理(1)
ipv6(1)
迁移(1)
admin(1)
aggregation(1)
case(1)
class(1)
client(1)
com(1)
count(1)
document(1)
image(1)
keystore(1)
max(1)
min(1)
mysql(1)
object(1)
project(1)
sum(1)
zip(1)
队列(1)
高可用(1)
集群(1)
排序(1)
数组(1)
主机(1)
搜索文章
搜索
搜索
关闭
011.分布式可视化DAG工作流任务调度系统DolphinScheduler-1.3.3安装部署
hive
hadoop
spark
数据库
云数据库 SQL Server
源码下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/incubator/dolphinscheduler/ 我这里选择1.3.3版本的apache-dolphinscheduler-incubating-1.3.3-src.zip
CoderJed
2020-12-03
1.4K
0
004.CM大数据平台实践之常用组件安装
yarn
node.js
spark
hive
每安装完一个组件之后,CM很能会提示某些过期配置需要重启,那么重启服务即可,最终的集群状态如下:
CoderJed
2020-06-16
333
0
001. Flink产生的背景以及简介
windows
spark
数据处理
大数据
实时处理是指从数据产生到根据该数据计算的结果产生之间的这段延迟可以满足业务的需求,假如业务需求是延迟不超过10ms,而你的处理延迟为15ms,就不能算实时处理,而假如业务要求处理数据的延迟为30min,而你的数据可以在20min内计算出来,这也算实时处理。
CoderJed
2019-08-02
2.1K
0
Spark on Yarn资源配置
spark
yarn
node.js
xml
工作期间,我提交spark任务到yarn上,发现指定的资源(使用内存大小。使用core的个数)总是与yarn的UI页面显示的资源使用量不一致,写本文说明一下这个问题,以及介绍一下spark on yarn的资源配置。
CoderJed
2019-05-15
2.2K
0
Spark伪分布式集群搭建
spark
分布式
linux
windows
http
---- 软件准备 一台Linux虚拟机 我用的CentOS-6.6的一个虚拟机,主机名为repo 参考在Windows中安装一台Linux虚拟机 spark安装包 下载地址:https://mirrors.aliyun.com/apache/spark/ 我用的spark-2.2.0-bin-hadoop2.7.tgz 要根据自己机器中的hadoop版本选择对应的spark版本 ---- (1) 把安装包上传到服务器并解压 [root@repo soft]# tar -zxvf spark-2
CoderJed
2018-09-13
1.6K
0
Spark完全分布式集群搭建
spark
分布式
hadoop
windows
linux
比如分别把这两个文件重命名为start-spark-all.sh和stop-spark-all.sh 原因: 如果集群中也配置HADOOP_HOME,那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件,当你执行这两个文件,系统不知道是操作hadoop集群还是spark集群。修改后就不会冲突了,当然,不修改的话,你需要进入它们的sbin目录下执行这些文件,这肯定就不会发生冲突了。我们配置SPARK_HOME主要也是为了执行其他spark命令方便。
CoderJed
2018-09-13
1.3K
0
Spark HA集群搭建
spark
hadoop
windows
linux
zookeeper
比如分别把这两个文件重命名为start-spark-all.sh和stop-spark-all.sh 原因: 如果集群中也配置HADOOP_HOME,那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件,当你执行这两个文件,系统不知道是操作hadoop集群还是spark集群。修改后就不会冲突了,当然,不修改的话,你需要进入它们的sbin目录下执行这些文件,这肯定就不会发生冲突了。我们配置SPARK_HOME主要也是为了执行其他spark命令方便。
CoderJed
2018-09-13
1.4K
0
Spark性能调优03-数据本地化调优
spark
比如计算需要的数据在node01这台服务器中的Executor1这个进程中,那么TaskScheduler会把TaskSet发往Executor1进程中执行,此时的数据本地化级别时PROCESS_LOCAL,Executor1是最佳的计算位置,如果发送的task在等待了3秒,重试了5次之后仍然没有执行,那么TaskScheduler就认为Executor1的资源不充足,不足以支撑计算,那么降低数据本地化级别,把task发往node01的另外一个进程Executor2中,这时的数据本地化级别为NODE_LOCAL,如果还无法执行,降低为RACK_LOCAL,ANY,直到Task可以开始计算
CoderJed
2018-09-13
970
0
Spark性能调优04-数据倾斜调优
spark
yarn
sql
hive
java
数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对应10条数据,但是个别key却对应了100万条数据,那么大部分task可能就只会分配到10条数据,然后1秒钟就运行完了;但是个别task可能分配到了100万数据,要运行一两个小时。因此,整个Spark作业的运行进度是由运行时间最长的那个task决定的。
CoderJed
2018-09-13
1.4K
0
Spark性能调优06-JVM调优
spark
jvm
数据库
scala
java
再JVM虚拟机中,当创建的对象的数量很多时,Eden 和 Survior1 区域会很快的满溢,就需要进行频繁地 Minor GC,这样会导致有一些生命周期较短的对象迅速长到15岁并放入到老年代中,导致老年代中存放大量的短生命周期的对象(正常请况下,老年代应该存放的是数量比较少并且会长期使用的对象,比如数据库连接池),当老年代满溢后,会进行Full GC,Full GC是开启一个很消耗性能和时间的线程,而且不管 Minor GC 还是 Full GC 都会导致 JVM 的工作线程停止,因为 Scala 也是基于 JVM 的编程语言,所以运行 Spark 程序和运行 Java 程序在 JVM 中的内存分配情况是相同的。
CoderJed
2018-09-13
1.4K
0
Spark读写HBase之使用Spark自带的API以及使用Bulk Load将大量数据导入HBase
spark
hbase
api
jar
scala
以上两个算子分别是基于Hadoop新版API和hadoop旧版API实现的,大部分代码都一样,需要注意的是新版API使用中Job类,旧版API使用JobConf类,另外导包的时候新版的相关jar包在org.apache.hadoop.mapreduce下,而旧版的相关jar包在org.apache.hadoop.mapred下
CoderJed
2018-09-13
3.2K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档