腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

文渊之博

专栏作者

182

文章

305708

阅读量

38

订阅数

常用spark优化参数

spark hdfs join partition 优化

常用spark优化参数强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启： set spark.shuffle.hdfs.enable=true; set spark.shuffle.io.maxRetries=1; set spark.shuffle.io.retryWait=0s; set spark.network.timeout=120s; ## 双写HDFS开启

2023-03-31

6360

如何快速同步hdfs数据到ck

大数据 spark kafka 数据处理 hive

ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中，当前日数据量达到了300亿。

2022-05-06

9310

试用最强Spark IDE--IDEA

ide scala spark 打包

IDEA 全称 IntelliJ IDEA，是java语言开发的集成环境，IntelliJ在业界被公认为最好的java开发工具之一，尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是超常的。IDEA是JetBrains公司的产品，这家公司总部位于捷克共和国的首都布拉格，开发人员以严谨著称的东欧程序员为主。

2022-05-06

5780

解决spark日志清理问题

spark shell linux

由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨，达到了硬盘的预警，不得已必须指定策略定期删除日志已保证服务器硬盘空间。

2020-11-24

2K0

Spark Standalone模式高可用部署

bash bash 指令 spark hadoop

本文使用Spark的版本为：spark-2.4.0-bin-hadoop2.7.tgz。

2020-11-13

1.3K0

spark shuffle参数调优

spark bash bash 指令

spark shuffle参数调优　 spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如64k），从而减少shuffle write过程中溢写磁盘文件的次数，也就可以减少磁盘IO次数，进而提升性能。在实践

2020-06-19

1.1K0

Spark DataFrame简介(二)

python spark unix java

Spark的TimestampType类型与Java的java.sql.Timestamp对应，

2020-06-19

4120

Spark DataFrame简介（一）

spark api java sql scala

本片将介绍Spark RDD的限制以及DataFrame（DF）如何克服这些限制，从如何创建DataFrame，到DF的各种特性，以及如何优化执行计划。最后还会介绍DF有哪些限制。

2020-06-19

1.7K0

sparksql 概述

spark api hive python mapreduce

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

2020-06-19

1K0

Flink入门介绍

flink api windows 缓存 spark

Apache Flink是一个分布式大数据处理引擎，可以对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境，对各种大小的数据规模进行快速计算。

2020-06-19

1.1K0

pyspark 内容介绍（一）

spark 大数据 python

pyspark 包介绍子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package 内容 PySpark是针对Spark的Python API。根据网上提供的资料，现在汇总一下这些类的基本用法，并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。 Public 类们: SparkContext: Spark 功能的主入口。 RDD: 弹性分布式数

2018-01-30

2.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态