首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1221499
阅读量
247
订阅数
Hive常用参数调优十二板斧
hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数
Spark学习技巧
2022-03-14
1.2K0
一个33岁老程序员的感悟
一、在中国你千万不要以为学习技术就可以换来稳定的生活和高的薪水待遇,你更不要认为那些从事市场开发,跑腿的人,没有前途。
Spark学习技巧
2022-03-14
2280
SparkSQL并行执行多个Job的探索
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
Spark学习技巧
2022-03-14
1.5K0
spark源码阅读基本思路
a.解决企业中bug。比如flink早期bug,就很多,如json序列化工具,在开启flink仅一次处理,json格式不符合要求,就会抛异常而挂掉,然后重试,挂掉。这明显不科学,要解决这个bug就要会读源码,改源码。
Spark学习技巧
2021-03-05
1.2K0
解惑“高深”的Kafka时间轮原理,原来也就这么回事!
Kafka中存在一些定时任务(DelayedOperation),如DelayedFetch、DelayedProduce、DelayedHeartbeat等,在Kafka中,定时任务的添加、轮转、执行、消亡等是通过时间轮来实现的。(时间轮并不是Kafka独有的设计,而是一种通用的实现方式,Netty中也有用到时间轮的方式)
Spark学习技巧
2020-11-09
9350
Hive on Spark参数调优姿势小结
Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些调优项。为了符合实际情况,Spark也采用on YARN部署方式来说明。
Spark学习技巧
2020-09-16
4K0
Hive鲜为人知的宝石-Hooks
Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器,它将SQL(严格来说,Hive查询语言 - HQL,SQL的一种变体)转换为一组Mapreduce / Tez / Spark作业。因此,Hive非常有助于非程序员使用Hadoop基础架构。原来,Hive只有一个引擎,即MapReduce。但是在最新版本中,Hive还支持Spark和Tez作为执行引擎。这使得Hive成为探索性数据分析的绝佳工具。
Spark学习技巧
2020-07-31
2.5K0
Spark 如何摆脱java双亲委托机制优先从用户jar加载类?
spark的类加载及参数传递过程还是很复杂的,主要是因为他运行环境太复杂了,不同的集群管理器完全不一样,即使是同一集群管理器cluster和client也不一样,再加上这块探究还是需要一定的java功底和耐心的,会使得很多人望而却步。
Spark学习技巧
2020-06-09
1.9K0
“不要害怕 RAID!”-kafka磁盘必备
我在互联网上经常看到这样的说法:RAID很危险,RAID磁盘阵列在重建过程中失败的可能性几乎是100%,因为硬盘驱动器已经变得非常大。
Spark学习技巧
2020-06-09
1.5K0
spark on yarn 内存分配详解
最近有不少知识星球粉丝和公众号粉丝给浪尖留言,说是不知道spark on yarn的时候,yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下spark on yarn,内存分配原理。
Spark学习技巧
2020-04-27
2.1K0
Flink计算PV,UV的案例及问题分析
PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。
Spark学习技巧
2019-12-25
3.4K0
系列 | 漫谈数仓第一篇NO.1 『​基础架构』
离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。本文不再多再介绍,之前文章已有深入介绍,如有兴趣可看这篇文章:数据仓库介绍与阿里实时数仓案例 (点击链接)。
Spark学习技巧
2019-09-23
1.8K0
美团面试题:JVM堆内存溢出后,其他线程是否可继续工作?
最近网上出现一个美团面试题:“一个线程OOM后,其他线程还能运行吗?”。我看网上出现了很多不靠谱的答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。
Spark学习技巧
2019-06-28
5310
19 个强大、有趣、又好玩的 Linux 命令!
输出一句话,有笑话,名言什么的 (还有唐诗宋词sudo apt-get install fortune-zh)
Spark学习技巧
2019-06-05
7680
请收藏 | Linux运维常见故障及处理的 32 个锦囊妙计
说起来日常的故障,其实,首先应该相到的就是:“备份”、“备份”、“备份”。毕竟再怎么牢固的系统或硬件都会有故障的时候,所以,备份放第一位。
Spark学习技巧
2019-06-05
1.2K0
Linux 之 crontab 使用
crond 是linux用来定期执行程序的命令。当安装完成操作系统之后,默认便会启动此任务调度命令。crond命令每分锺会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。而linux任务调度的工作主要分为以下两类:
Spark学习技巧
2019-05-17
2.8K0
服务器性能优化的正确姿势(好文推荐)
导言:运维工作中除了要维持平台的稳定运行以外,还得对服务器的性能进行优化,让服务器发挥出良好的工作性能是稳定运行的基础。腾讯互娱DBA团队的汪伟(simon)在这一领域里整理出了一套性能优化的资料为大家在性能优化提供充足的方向。
Spark学习技巧
2019-05-16
2.3K0
会了也要看的flink安装部署|适合阅读
Flink支持运行与所有的类linux环境,比如linux,mac os x 和cygwin(windows),要求一个master节点,一个或者多个worker节点。再部署启动flink集群之前,要准备一下环境,对每个节点的环境要求是:
Spark学习技巧
2019-03-08
1.5K0
大数据人员必会的linux性能调优
最近发现知识付费泛滥成灾,很多人买了很多课程,但是真正能看完的没有几个课程,比如大数据从业人员,工具还没用熟,就去学习数据结构,机器学习等,不是瞧不起你的学习能力,人的精力有限,而且成长也要稳扎稳打,大数据都是培训入门的,没有两三年的积累,根本就是一坨屎,还想着贪多,最后肯定是一塌糊涂,不要只着眼于眼前。
Spark学习技巧
2018-12-18
4960
为什么说软件开发者是有史以来最好的工作?
在过去的十几年中,我一直都是一名开发者。不久前,公司的一位实习生问我,做一名开发者,最酷的事情有哪些。以下就是我给出的回答:
Spark学习技巧
2018-08-20
3780
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档