腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
举报
810
文章
1221499
阅读量
247
订阅数
订阅专栏
申请加入专栏
全部文章(810)
spark(162)
大数据(156)
sql(131)
数据库(123)
编程算法(122)
java(101)
kafka(57)
数据分析(54)
存储(52)
其他(51)
分布式(45)
hive(45)
flink(45)
缓存(44)
云数据库 SQL Server(43)
hbase(41)
apache(39)
node.js(36)
api(35)
hadoop(30)
数据结构(29)
数据处理(28)
http(24)
ide(23)
linux(21)
zookeeper(21)
scala(20)
云数据库 Redis(20)
机器学习(19)
文件存储(19)
TDSQL MySQL 版(19)
jvm(19)
https(16)
数据(15)
开源(14)
网站(13)
网络安全(13)
windows(13)
mapreduce(12)
jdk(12)
javascript(11)
bash(11)
数据安全(11)
yarn(11)
运维(11)
数据湖(11)
企业(10)
Elasticsearch Service(10)
html(9)
json(9)
unix(9)
神经网络(9)
深度学习(9)
日志数据(9)
hashmap(9)
云计算(9)
打包(8)
git(8)
消息队列 CMQ 版(8)
系统架构(8)
maven(7)
人工智能(7)
安全(7)
php(6)
python(6)
bash 指令(6)
知识图谱(6)
腾讯云测试服务(6)
数据迁移(6)
推荐系统(6)
实时数仓(6)
数据挖掘(5)
xml(5)
jquery(5)
jar(5)
批量计算(5)
容器(5)
面向对象编程(5)
rpc(5)
rabbitmq(5)
设计(5)
数据仓库(5)
自动驾驶(4)
android(4)
搜索引擎(4)
spring(4)
mongodb(4)
电商(4)
tcp/ip(4)
微信(4)
微服务(4)
数据集成(4)
app(4)
join(4)
框架(4)
模型(4)
区块链(3)
go(3)
eclipse(3)
github(3)
全文检索(3)
容器镜像服务(3)
serverless(3)
自动化(3)
压力测试(3)
uml(3)
数据可视化(3)
架构设计(3)
任务调度(3)
bug(3)
key(3)
mysql(3)
offset(3)
partition(3)
ps(3)
产品(3)
管理(3)
函数(3)
架构(3)
流量(3)
排序(3)
日志(3)
异常(3)
官方文档(2)
NLP 服务(2)
c++(2)
c#(2)
ruby(2)
lua(2)
单片机(2)
postgresql(2)
nginx(2)
访问管理(2)
云数据库 MongoDB(2)
消息队列 CKafka 版(2)
大数据解决方案(2)
kubernetes(2)
无人驾驶(2)
ssh(2)
卷积神经网络(2)
erp(2)
jdbc(2)
二叉树(2)
aop(2)
processing(2)
sdk(2)
实时监控(2)
学习方法(2)
数据库管理(2)
数据脱敏(2)
bi(2)
date(2)
hdfs(2)
null(2)
shuffle(2)
测试(2)
程序(2)
程序员(2)
服务(2)
链表(2)
内存(2)
配置(2)
入门(2)
实践(2)
系统(2)
原理(2)
费用中心(1)
负载均衡(1)
比特币(1)
tensorflow(1)
ios(1)
objective-c(1)
c 语言(1)
actionscript(1)
css(1)
ajax(1)
sqlite(1)
nosql(1)
memcached(1)
access(1)
mvc(1)
svn(1)
struts(1)
tomcat(1)
中文分词(1)
lucene/solr(1)
analyzer(1)
负载均衡缓存(1)
tornado(1)
GPU 云服务器(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
云直播(1)
短视频(1)
腾讯云可观测平台(1)
SSL 证书(1)
数据加密服务(1)
腾讯git代码托管(工蜂)(1)
数据备份(1)
express(1)
rollup.js(1)
游戏(1)
互联网金融(1)
爬虫(1)
正则表达式(1)
mybatis(1)
sql server(1)
opencv(1)
自动化测试(1)
kotlin(1)
scrapy(1)
dubbo(1)
ddos(1)
udp(1)
kernel(1)
socket编程(1)
无监督学习(1)
nat(1)
nest(1)
视频分析(1)
flutter(1)
风控平台(1)
安全运营平台(1)
特征工程(1)
unicode(1)
迁移(1)
groovy(1)
功能测试(1)
性能测试(1)
es(1)
实时数据集成(1)
事件总线(1)
腾讯云数据仓库 TCHouse(1)
数据湖分析(1)
智能推荐平台(1)
教育(1)
数据库审计(1)
class(1)
cpu(1)
data(1)
decimal(1)
dump(1)
elk(1)
event(1)
exists(1)
final(1)
flume(1)
foreach(1)
for循环(1)
frequency(1)
function(1)
gc(1)
google(1)
gson(1)
initialization(1)
ip(1)
it(1)
jackson(1)
java8(1)
lambda(1)
list(1)
map(1)
message(1)
overflow(1)
public(1)
push(1)
quartz(1)
rank(1)
redis(1)
request(1)
return(1)
select(1)
server(1)
sqoop(1)
stack(1)
static(1)
streaming(1)
string(1)
stringbuilder(1)
subquery(1)
thrift(1)
web(1)
报表(1)
闭包(1)
变量(1)
编译(1)
边缘计算(1)
创业(1)
磁盘(1)
单例模式(1)
登录(1)
多线程(1)
工具(1)
工作(1)
行业(1)
混合云(1)
集合(1)
技巧(1)
集群(1)
监控(1)
解决方案(1)
开发(1)
面试(1)
生命周期(1)
事件(1)
实时计算(1)
事务(1)
数据管理(1)
同步(1)
统计(1)
网关(1)
线程池(1)
效率(1)
协议(1)
性能(1)
性能监控(1)
性能优化(1)
异步编程(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
Hive常用参数调优十二板斧
linux
编程算法
hive
mapreduce
hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数
Spark学习技巧
2022-03-14
1.2K
0
一个33岁老程序员的感悟
java
c#
linux
bug
创业
一、在中国你千万不要以为学习技术就可以换来稳定的生活和高的薪水待遇,你更不要认为那些从事市场开发,跑腿的人,没有前途。
Spark学习技巧
2022-03-14
228
0
SparkSQL并行执行多个Job的探索
spark
sql
数据库
linux
编程算法
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
Spark学习技巧
2022-03-14
1.5K
0
spark源码阅读基本思路
spark
rpc
linux
flink
编程算法
a.解决企业中bug。比如flink早期bug,就很多,如json序列化工具,在开启flink仅一次处理,json格式不符合要求,就会抛异常而挂掉,然后重试,挂掉。这明显不科学,要解决这个bug就要会读源码,改源码。
Spark学习技巧
2021-03-05
1.2K
0
解惑“高深”的Kafka时间轮原理,原来也就这么回事!
kafka
编程算法
sql
linux
Kafka中存在一些定时任务(DelayedOperation),如DelayedFetch、DelayedProduce、DelayedHeartbeat等,在Kafka中,定时任务的添加、轮转、执行、消亡等是通过时间轮来实现的。(时间轮并不是Kafka独有的设计,而是一种通用的实现方式,Netty中也有用到时间轮的方式)
Spark学习技巧
2020-11-09
935
0
Hive on Spark参数调优姿势小结
hive
linux
spark
yarn
node.js
Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些调优项。为了符合实际情况,Spark也采用on YARN部署方式来说明。
Spark学习技巧
2020-09-16
4K
0
Hive鲜为人知的宝石-Hooks
linux
hive
hadoop
mapreduce
http
Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器,它将SQL(严格来说,Hive查询语言 - HQL,SQL的一种变体)转换为一组Mapreduce / Tez / Spark作业。因此,Hive非常有助于非程序员使用Hadoop基础架构。原来,Hive只有一个引擎,即MapReduce。但是在最新版本中,Hive还支持Spark和Tez作为执行引擎。这使得Hive成为探索性数据分析的绝佳工具。
Spark学习技巧
2020-07-31
2.5K
0
Spark 如何摆脱java双亲委托机制优先从用户jar加载类?
jar
linux
yarn
node.js
java
spark的类加载及参数传递过程还是很复杂的,主要是因为他运行环境太复杂了,不同的集群管理器完全不一样,即使是同一集群管理器cluster和client也不一样,再加上这块探究还是需要一定的java功底和耐心的,会使得很多人望而却步。
Spark学习技巧
2020-06-09
1.9K
0
“不要害怕 RAID!”-kafka磁盘必备
存储
linux
我在互联网上经常看到这样的说法:RAID很危险,RAID磁盘阵列在重建过程中失败的可能性几乎是100%,因为硬盘驱动器已经变得非常大。
Spark学习技巧
2020-06-09
1.5K
0
spark on yarn 内存分配详解
linux
spark
yarn
node.js
网站
最近有不少知识星球粉丝和公众号粉丝给浪尖留言,说是不知道spark on yarn的时候,yarn如何分配Spark 的driver和executor内存的。今天浪尖就给大家分享一下spark on yarn,内存分配原理。
Spark学习技巧
2020-04-27
2.1K
0
Flink计算PV,UV的案例及问题分析
大数据
linux
云计算
PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。
Spark学习技巧
2019-12-25
3.4K
0
系列 | 漫谈数仓第一篇NO.1 『基础架构』
云数据迁移
linux
数据库
数据安全
大数据
离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。本文不再多再介绍,之前文章已有深入介绍,如有兴趣可看这篇文章:数据仓库介绍与阿里实时数仓案例 (点击链接)。
Spark学习技巧
2019-09-23
1.8K
0
美团面试题:JVM堆内存溢出后,其他线程是否可继续工作?
linux
jvm
其他
java
最近网上出现一个美团面试题:“一个线程OOM后,其他线程还能运行吗?”。我看网上出现了很多不靠谱的答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。
Spark学习技巧
2019-06-28
531
0
19 个强大、有趣、又好玩的 Linux 命令!
编程算法
linux
bash
bash 指令
输出一句话,有笑话,名言什么的 (还有唐诗宋词sudo apt-get install fortune-zh)
Spark学习技巧
2019-06-05
768
0
请收藏 | Linux运维常见故障及处理的 32 个锦囊妙计
云数据库 SQL Server
数据库
sql
linux
bash
说起来日常的故障,其实,首先应该相到的就是:“备份”、“备份”、“备份”。毕竟再怎么牢固的系统或硬件都会有故障的时候,所以,备份放第一位。
Spark学习技巧
2019-06-05
1.2K
0
Linux 之 crontab 使用
bash 指令
bash
html
任务调度
linux
crond 是linux用来定期执行程序的命令。当安装完成操作系统之后,默认便会启动此任务调度命令。crond命令每分锺会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。而linux任务调度的工作主要分为以下两类:
Spark学习技巧
2019-05-17
2.8K
0
服务器性能优化的正确姿势(好文推荐)
ios
linux
编程算法
缓存
导言:运维工作中除了要维持平台的稳定运行以外,还得对服务器的性能进行优化,让服务器发挥出良好的工作性能是稳定运行的基础。腾讯互娱DBA团队的汪伟(simon)在这一领域里整理出了一套性能优化的资料为大家在性能优化提供充足的方向。
Spark学习技巧
2019-05-16
2.3K
0
会了也要看的flink安装部署|适合阅读
ssh
大数据
linux
bash
bash 指令
Flink支持运行与所有的类linux环境,比如linux,mac os x 和cygwin(windows),要求一个master节点,一个或者多个worker节点。再部署启动flink集群之前,要准备一下环境,对每个节点的环境要求是:
Spark学习技巧
2019-03-08
1.5K
0
大数据人员必会的linux性能调优
linux
大数据
最近发现知识付费泛滥成灾,很多人买了很多课程,但是真正能看完的没有几个课程,比如大数据从业人员,工具还没用熟,就去学习数据结构,机器学习等,不是瞧不起你的学习能力,人的精力有限,而且成长也要稳扎稳打,大数据都是培训入门的,没有两三年的积累,根本就是一坨屎,还想着贪多,最后肯定是一塌糊涂,不要只着眼于眼前。
Spark学习技巧
2018-12-18
496
0
为什么说软件开发者是有史以来最好的工作?
linux
在过去的十几年中,我一直都是一名开发者。不久前,公司的一位实习生问我,做一名开发者,最酷的事情有哪些。以下就是我给出的回答:
Spark学习技巧
2018-08-20
378
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档