Jed的技术阶梯-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Jed的技术阶梯

专栏成员

220

文章

384247

阅读量

48

订阅数

011.分布式可视化DAG工作流任务调度系统DolphinScheduler-1.3.3安装部署

hive hadoop spark 数据库云数据库 SQL Server

源码下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/incubator/dolphinscheduler/ 我这里选择1.3.3版本的apache-dolphinscheduler-incubating-1.3.3-src.zip

2020-12-03

1.4K0

004.CM大数据平台实践之常用组件安装

yarn node.js spark hive

每安装完一个组件之后，CM很能会提示某些过期配置需要重启，那么重启服务即可，最终的集群状态如下：

2020-06-16

3330

001. Flink产生的背景以及简介

windows spark 数据处理大数据

实时处理是指从数据产生到根据该数据计算的结果产生之间的这段延迟可以满足业务的需求，假如业务需求是延迟不超过10ms，而你的处理延迟为15ms，就不能算实时处理，而假如业务要求处理数据的延迟为30min，而你的数据可以在20min内计算出来，这也算实时处理。

2019-08-02

2.1K0

Spark on Yarn资源配置

spark yarn node.js xml

工作期间，我提交spark任务到yarn上，发现指定的资源（使用内存大小。使用core的个数）总是与yarn的UI页面显示的资源使用量不一致，写本文说明一下这个问题，以及介绍一下spark on yarn的资源配置。

2019-05-15

2.2K0

Spark伪分布式集群搭建

spark 分布式 linux windows http

---- 软件准备一台Linux虚拟机我用的CentOS-6.6的一个虚拟机，主机名为repo 参考在Windows中安装一台Linux虚拟机 spark安装包下载地址：https://mirrors.aliyun.com/apache/spark/ 我用的spark-2.2.0-bin-hadoop2.7.tgz 要根据自己机器中的hadoop版本选择对应的spark版本 ---- (1) 把安装包上传到服务器并解压 [root@repo soft]# tar -zxvf spark-2

2018-09-13

1.6K0

Spark完全分布式集群搭建

spark 分布式 hadoop windows linux

比如分别把这两个文件重命名为start-spark-all.sh和stop-spark-all.sh 原因：如果集群中也配置HADOOP_HOME，那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件，当你执行这两个文件，系统不知道是操作hadoop集群还是spark集群。修改后就不会冲突了，当然，不修改的话，你需要进入它们的sbin目录下执行这些文件，这肯定就不会发生冲突了。我们配置SPARK_HOME主要也是为了执行其他spark命令方便。

2018-09-13

1.3K0

Spark HA集群搭建

spark hadoop windows linux zookeeper

比如分别把这两个文件重命名为start-spark-all.sh和stop-spark-all.sh 原因：如果集群中也配置HADOOP_HOME，那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件，当你执行这两个文件，系统不知道是操作hadoop集群还是spark集群。修改后就不会冲突了，当然，不修改的话，你需要进入它们的sbin目录下执行这些文件，这肯定就不会发生冲突了。我们配置SPARK_HOME主要也是为了执行其他spark命令方便。

2018-09-13

1.4K0

Spark性能调优03-数据本地化调优

比如计算需要的数据在node01这台服务器中的Executor1这个进程中，那么TaskScheduler会把TaskSet发往Executor1进程中执行，此时的数据本地化级别时PROCESS_LOCAL，Executor1是最佳的计算位置，如果发送的task在等待了3秒，重试了5次之后仍然没有执行，那么TaskScheduler就认为Executor1的资源不充足，不足以支撑计算，那么降低数据本地化级别，把task发往node01的另外一个进程Executor2中，这时的数据本地化级别为NODE_LOCAL，如果还无法执行，降低为RACK_LOCAL，ANY，直到Task可以开始计算

2018-09-13

9700

Spark性能调优04-数据倾斜调优

spark yarn sql hive java

数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个Spark作业的运行进度是由运行时间最长的那个task决定的。

2018-09-13

1.4K0

Spark性能调优06-JVM调优

spark jvm 数据库 scala java

再JVM虚拟机中，当创建的对象的数量很多时，Eden 和 Survior1 区域会很快的满溢，就需要进行频繁地 Minor GC，这样会导致有一些生命周期较短的对象迅速长到15岁并放入到老年代中，导致老年代中存放大量的短生命周期的对象(正常请况下，老年代应该存放的是数量比较少并且会长期使用的对象，比如数据库连接池)，当老年代满溢后，会进行Full GC，Full GC是开启一个很消耗性能和时间的线程，而且不管 Minor GC 还是 Full GC 都会导致 JVM 的工作线程停止，因为 Scala 也是基于 JVM 的编程语言，所以运行 Spark 程序和运行 Java 程序在 JVM 中的内存分配情况是相同的。

2018-09-13

1.4K0

Spark读写HBase之使用Spark自带的API以及使用Bulk Load将大量数据导入HBase

spark hbase api jar scala

以上两个算子分别是基于Hadoop新版API和hadoop旧版API实现的，大部分代码都一样，需要注意的是新版API使用中Job类，旧版API使用JobConf类，另外导包的时候新版的相关jar包在org.apache.hadoop.mapreduce下，而旧版的相关jar包在org.apache.hadoop.mapred下

2018-09-13

3.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态