腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1280143

阅读量

316

订阅数

Spark3.0核心调优参数小总结

spark bash bash 指令 linux vr 视频解决方案

基础配置 spark.executor.memory 指定Executor memory,也就是Executor可用内存上限 spark.memory.offHeap.enabled 堆外内存启用开关 spark.memory.offHeap.size 指定堆外内存大小 spark.memory.fraction 堆内内存中，Spark缓存RDD和计算的比例 spark.memory.storageFraction Spark缓存RDD的内存占比，相应的执行内存比例为1 - spark.memory.st

王知无-import_bigdata

2021-12-28

1.6K0

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

王知无-import_bigdata

2021-10-27

2.9K0

Data Mesh，数据网格的道与术

大数据 linux 微服务分布式

周末的时候，看到有群友讨论关于 Data Mesh 的话题。这个名词我在2020年初的时候听到过一次，当时感觉就是一个概念，看的糊里糊涂，没有当回事。最近突然又被推上了话题风口，所以静下心来看了一下相关的论文和介绍。

王知无-import_bigdata

2021-07-12

9080

实操 | Flink1.12.1通过Table API / Flink SQL读取HBase2.4.0

flink 大数据 hbase maven linux

昨天群里有人问 Flink 1.12 读取Hbase的问题，于是看到这篇文章分享给大家。本文作者Ashiamd。

王知无-import_bigdata

2021-05-07

2.5K1

Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台

flink 大数据 java linux yarn

目前开发Flink的方式有很多，一般来说都是开发同学写JAVA/SCALA/PYTHON项目，然后提交到集群上运行。这种做法较为灵活，因为你在代码里面可以写任务东西，什么维表JOIN、参数调优，都能很轻松的搞定。但是对开发同学的要求较高，有一定的学习成本。比如有些同学擅长JAVA，有些擅长PYTHON，而在我们的项目开发过程中，是不会允许多种语言共存的，一般来说都是选择JAVA作为我们的开发语言，那么，对于擅长PYTHON的同学来说，再从头开始攀爬JAVA这座大山，而且还得短期能够熟练使用，无疑是难上加难。

王知无-import_bigdata

2021-03-15

4.3K0

真·屠龙之术 | 一次SparkSQL性能分析与优化之旅及相关工具小结

linux java 编程算法官方文档 jvm

本文是一个OLAP数据源接入到SparkSQL并进行优化的过程。本文总结了调优过程当中一些可以借鉴与讨论的地方，鉴于本人水平有限，还请有这方面调优经验的同学不吝赐教。

王知无-import_bigdata

2021-01-06

1.1K0

Hive常用参数调优十二板斧

mapreduce linux 编程算法大数据 hive

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

王知无-import_bigdata

2020-12-08

2K0

Hive性能调优 | 数据倾斜

mapreduce hadoop 大数据 linux

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。针对上面的第4条假设有这样一个任务：

王知无-import_bigdata

2020-11-06

7280

Hive性能调优 | Fetch抓取

linux hive mapreduce 大数据

我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。

王知无-import_bigdata

2020-11-06

5220

Spark常见错误问题汇总

大数据 node.js spark java linux

一.SparkSQL相关在执行insert 语句时报错，堆栈信息为：FileSystem closed。常常出现在ThriftServer里面。原因：由于hadoop FileSystem.get 获得的FileSystem会从缓存加载，如果多线程一个线程closedFileSystem会导致该BUG 解决方法：hdfs存在不从缓存加载的解决方式，在hdfs-site.xml 配置 fs.hdfs.impl.disable.cache=true即可在执行Spark过程中抛出：Failed to big

王知无-import_bigdata

2020-07-21

3.7K0

Spark-submit 参数调优完整攻略

linux spark bash bash 指令

该参数主要用于设置该应用总共需要多少executors来执行，Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数，并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况，太少了无法充分利用集群资源，太多了则难以分配需要的资源。

王知无-import_bigdata

2020-07-21

2.7K0

浅谈Linux cgroup机制与YARN的CPU资源隔离

文件存储 yarn bash bash 指令 linux

我们在生产环境中经常可以发现有计算密集型任务争用NodeManager的CPU，以及个别Container消耗太多CPU资源导致其他系统服务抖动的情况。好在Hadoop 2.2版本之后，YARN通过利用Linux系统的cgroup机制支持了CPU资源隔离。本文先简单看看cgroup，然后分析一下YARN的CPU资源隔离的方案。

王知无-import_bigdata

2020-06-28

2.6K1

Spark Streaming官方编程指南

spark linux 文件存储编程算法批量计算

Spark Streaming（下称streaming）是Spark core的拓展，一个易扩展、高吞吐、高容错的流式数据处理系统。

王知无-import_bigdata

2020-06-11

7150

Spark性能优化总结

spark python 缓存 linux mapreduce

Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。通过都会将数据序列化，降低其内存memory和网络带宽shuffle的消耗。

王知无-import_bigdata

2020-04-02

1.2K0

Spark面对OOM问题的解决方法及优化总结

spark linux hbase TDSQL MySQL 版

map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。后面先总结一下我对Spark内存模型的理解，再总结各种OOM的情况相对应的解决办法和性能优化方面的总结。如果理解有错，希望在评论中指出。

王知无-import_bigdata

2019-12-24

2.9K0

这个面试问题很难么 | 如何处理大数据中的数据倾斜

spark linux mapreduce hadoop 大数据

数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。

王知无-import_bigdata

2019-11-18

1.1K0

聊聊page cache与Kafka之间的事儿

缓存 kafka linux jvm

关于Kafka的一个灵魂拷问：它为什么这么快？或者说，为什么它能做到如此大的吞吐量和如此低的延迟？

王知无-import_bigdata

2019-08-16

4.9K0

Hadoop所支持的几种压缩格式

文件存储 hadoop javascript linux mapreduce

优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。

王知无-import_bigdata

2019-04-24

2.3K0

大数据成神之路-Linux基础

大数据 linux

真正的大数据工程师，linux命令是横着写很长，不是一句一句执行的，尤其是需要检测cpu，内存，网络IO等各种开销，就需要掌握各种命令，命令主要分为这几种，一是查看各种进程的相关信息，其中包括cpu或者内存等从高到底，或者是前十等等。二是排查故障，结合linux和java的各种命令快速定位到问题出现的关键地方。三是排除系统长时间使用过慢原因等。

王知无-import_bigdata

2019-03-05

5520

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态