首页
学习
活动
专区
工具
TVP
发布

文渊之博

专栏作者
182
文章
305708
阅读量
38
订阅数
常用spark优化参数
常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spark.shuffle.io.maxRetries=1; set spark.shuffle.io.retryWait=0s; set spark.network.timeout=120s; ## 双写HDFS开启
用户1217611
2023-03-31
6360
如何快速同步hdfs数据到ck
ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。
用户1217611
2022-05-06
9310
试用最强Spark IDE--IDEA
IDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是超常的。IDEA是JetBrains公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。
用户1217611
2022-05-06
5780
解决spark日志清理问题
由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨,达到了硬盘的预警,不得已必须指定策略定期删除日志已保证服务器硬盘空间。
用户1217611
2020-11-24
2K0
Spark Standalone模式 高可用部署
本文使用Spark的版本为:spark-2.4.0-bin-hadoop2.7.tgz。
用户1217611
2020-11-13
1.3K0
spark shuffle参数调优
spark shuffle参数调优  spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。 调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减少shuffle write过程中溢写磁盘文件的次数,也就可以减少磁盘IO次数,进而提升性能。在实践
用户1217611
2020-06-19
1.1K0
Spark DataFrame简介(二)
Spark的TimestampType类型与Java的java.sql.Timestamp对应,
用户1217611
2020-06-19
4120
Spark DataFrame简介(一)
本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。
用户1217611
2020-06-19
1.7K0
sparksql 概述
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
用户1217611
2020-06-19
1K0
Flink入门介绍
Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。
用户1217611
2020-06-19
1.1K0
pyspark 内容介绍(一)
pyspark 包介绍 子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package 内容 PySpark是针对Spark的Python API。根据网上提供的资料,现在汇总一下这些类的基本用法,并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。 Public 类们: SparkContext: Spark 功能的主入口。 RDD: 弹性分布式数
用户1217611
2018-01-30
2.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档