腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1221499

阅读量

247

订阅数

Hive常用参数调优十二板斧

linux 编程算法 hive mapreduce

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

Spark学习技巧

2022-03-14

1.2K0

一个33岁老程序员的感悟

java c#linux bug 创业

一、在中国你千万不要以为学习技术就可以换来稳定的生活和高的薪水待遇，你更不要认为那些从事市场开发，跑腿的人，没有前途。

Spark学习技巧

2022-03-14

2280

SparkSQL并行执行多个Job的探索

spark sql 数据库 linux 编程算法

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

Spark学习技巧

2022-03-14

1.5K0

spark源码阅读基本思路

spark rpc linux flink 编程算法

a.解决企业中bug。比如flink早期bug，就很多，如json序列化工具，在开启flink仅一次处理，json格式不符合要求，就会抛异常而挂掉，然后重试，挂掉。这明显不科学，要解决这个bug就要会读源码，改源码。

Spark学习技巧

2021-03-05

1.2K0

解惑“高深”的Kafka时间轮原理，原来也就这么回事！

kafka 编程算法 sql linux

Kafka中存在一些定时任务(DelayedOperation)，如DelayedFetch、DelayedProduce、DelayedHeartbeat等，在Kafka中，定时任务的添加、轮转、执行、消亡等是通过时间轮来实现的。(时间轮并不是Kafka独有的设计，而是一种通用的实现方式，Netty中也有用到时间轮的方式)

Spark学习技巧

2020-11-09

9350

Hive on Spark参数调优姿势小结

hive linux spark yarn node.js

Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE-7292提出。Hive on Spark的效率比on MR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些调优项。为了符合实际情况，Spark也采用on YARN部署方式来说明。

Spark学习技巧

2020-09-16

4K0

Hive鲜为人知的宝石-Hooks

linux hive hadoop mapreduce http

Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器，它将SQL（严格来说，Hive查询语言 - HQL，SQL的一种变体）转换为一组Mapreduce / Tez / Spark作业。因此，Hive非常有助于非程序员使用Hadoop基础架构。原来，Hive只有一个引擎，即MapReduce。但是在最新版本中，Hive还支持Spark和Tez作为执行引擎。这使得Hive成为探索性数据分析的绝佳工具。

Spark学习技巧

2020-07-31

2.5K0

Spark 如何摆脱java双亲委托机制优先从用户jar加载类？

jar linux yarn node.js java

spark的类加载及参数传递过程还是很复杂的，主要是因为他运行环境太复杂了，不同的集群管理器完全不一样，即使是同一集群管理器cluster和client也不一样，再加上这块探究还是需要一定的java功底和耐心的，会使得很多人望而却步。

Spark学习技巧

2020-06-09

1.9K0

“不要害怕 RAID！”-kafka磁盘必备

我在互联网上经常看到这样的说法：RAID很危险，RAID磁盘阵列在重建过程中失败的可能性几乎是100%，因为硬盘驱动器已经变得非常大。

Spark学习技巧

2020-06-09

1.5K0

spark on yarn 内存分配详解

linux spark yarn node.js 网站

最近有不少知识星球粉丝和公众号粉丝给浪尖留言，说是不知道spark on yarn的时候，yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下spark on yarn，内存分配原理。

Spark学习技巧

2020-04-27

2.1K0

Flink计算PV，UV的案例及问题分析

大数据 linux 云计算

PV(访问量)：即Page View, 即页面浏览量或点击量，用户每次刷新即被计算一次。

Spark学习技巧

2019-12-25

3.4K0

系列 | 漫谈数仓第一篇NO.1 『基础架构』

云数据迁移 linux 数据库数据安全大数据

离线数据仓库到实时数据仓库，从lambda架构到kappa架构、再到混合架构。本文不再多再介绍，之前文章已有深入介绍，如有兴趣可看这篇文章：数据仓库介绍与阿里实时数仓案例（点击链接）。

Spark学习技巧

2019-09-23

1.8K0

美团面试题：JVM堆内存溢出后，其他线程是否可继续工作？

linux jvm 其他 java

最近网上出现一个美团面试题：“一个线程OOM后，其他线程还能运行吗？”。我看网上出现了很多不靠谱的答案。这道题其实很有难度，涉及的知识点有jvm内存分配、作用域、gc等，不是简单的是与否的问题。

Spark学习技巧

2019-06-28

5310

19 个强大、有趣、又好玩的 Linux 命令！

编程算法 linux bash bash 指令

输出一句话，有笑话，名言什么的 (还有唐诗宋词sudo apt-get install fortune-zh)

Spark学习技巧

2019-06-05

7680

请收藏 | Linux运维常见故障及处理的 32 个锦囊妙计

云数据库 SQL Server 数据库 sql linux bash

说起来日常的故障，其实，首先应该相到的就是：“备份”、“备份”、“备份”。毕竟再怎么牢固的系统或硬件都会有故障的时候，所以，备份放第一位。

Spark学习技巧

2019-06-05

1.2K0

Linux 之 crontab 使用

bash 指令 bash html 任务调度 linux

crond 是linux用来定期执行程序的命令。当安装完成操作系统之后，默认便会启动此任务调度命令。crond命令每分锺会定期检查是否有要执行的工作，如果有要执行的工作便会自动执行该工作。而linux任务调度的工作主要分为以下两类：

Spark学习技巧

2019-05-17

2.8K0

服务器性能优化的正确姿势（好文推荐）

ios linux 编程算法缓存

导言：运维工作中除了要维持平台的稳定运行以外，还得对服务器的性能进行优化，让服务器发挥出良好的工作性能是稳定运行的基础。腾讯互娱DBA团队的汪伟（simon）在这一领域里整理出了一套性能优化的资料为大家在性能优化提供充足的方向。

Spark学习技巧

2019-05-16

2.3K0

会了也要看的flink安装部署|适合阅读

ssh 大数据 linux bash bash 指令

Flink支持运行与所有的类linux环境，比如linux，mac os x 和cygwin(windows)，要求一个master节点，一个或者多个worker节点。再部署启动flink集群之前，要准备一下环境，对每个节点的环境要求是：

Spark学习技巧

2019-03-08

1.5K0

大数据人员必会的linux性能调优

linux 大数据

最近发现知识付费泛滥成灾，很多人买了很多课程，但是真正能看完的没有几个课程，比如大数据从业人员，工具还没用熟，就去学习数据结构，机器学习等，不是瞧不起你的学习能力，人的精力有限，而且成长也要稳扎稳打，大数据都是培训入门的，没有两三年的积累，根本就是一坨屎，还想着贪多，最后肯定是一塌糊涂，不要只着眼于眼前。

Spark学习技巧

2018-12-18

4960

为什么说软件开发者是有史以来最好的工作？

在过去的十几年中，我一直都是一名开发者。不久前，公司的一位实习生问我，做一名开发者，最酷的事情有哪些。以下就是我给出的回答：

Spark学习技巧

2018-08-20

3780

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态