腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏成员
举报
810
文章
1302046
阅读量
248
订阅数
订阅专栏
申请加入专栏
全部文章(810)
spark(162)
大数据(156)
sql(131)
数据库(123)
编程算法(122)
java(101)
kafka(57)
数据分析(54)
存储(52)
其他(51)
分布式(45)
hive(45)
flink(45)
缓存(44)
云数据库 SQL Server(43)
hbase(41)
apache(39)
node.js(36)
api(35)
hadoop(30)
数据结构(29)
数据处理(28)
http(24)
ide(23)
linux(21)
zookeeper(21)
scala(20)
云数据库 Redis(20)
机器学习(19)
文件存储(19)
TDSQL MySQL 版(19)
jvm(19)
https(16)
数据(15)
开源(14)
网站(13)
网络安全(13)
windows(13)
mapreduce(12)
jdk(12)
javascript(11)
bash(11)
数据安全(11)
yarn(11)
运维(11)
数据湖(11)
企业(10)
Elasticsearch Service(10)
html(9)
json(9)
unix(9)
神经网络(9)
深度学习(9)
日志数据(9)
hashmap(9)
云计算(9)
打包(8)
git(8)
消息队列 CMQ 版(8)
系统架构(8)
maven(7)
人工智能(7)
安全(7)
php(6)
python(6)
bash 指令(6)
知识图谱(6)
腾讯云测试服务(6)
数据迁移(6)
推荐系统(6)
实时数仓(6)
数据挖掘(5)
xml(5)
jquery(5)
jar(5)
批量计算(5)
容器(5)
面向对象编程(5)
rpc(5)
rabbitmq(5)
设计(5)
数据仓库(5)
自动驾驶(4)
android(4)
搜索引擎(4)
spring(4)
mongodb(4)
电商(4)
tcp/ip(4)
微信(4)
微服务(4)
数据集成(4)
app(4)
join(4)
框架(4)
模型(4)
区块链(3)
go(3)
eclipse(3)
github(3)
全文检索(3)
容器镜像服务(3)
serverless(3)
自动化(3)
压力测试(3)
uml(3)
数据可视化(3)
架构设计(3)
任务调度(3)
bug(3)
key(3)
mysql(3)
offset(3)
partition(3)
ps(3)
产品(3)
管理(3)
函数(3)
架构(3)
流量(3)
排序(3)
日志(3)
异常(3)
官方文档(2)
NLP 服务(2)
c++(2)
c#(2)
ruby(2)
lua(2)
单片机(2)
postgresql(2)
nginx(2)
访问管理(2)
云数据库 MongoDB(2)
消息队列 CKafka 版(2)
大数据解决方案(2)
kubernetes(2)
无人驾驶(2)
ssh(2)
卷积神经网络(2)
erp(2)
jdbc(2)
二叉树(2)
aop(2)
processing(2)
sdk(2)
实时监控(2)
学习方法(2)
数据库管理(2)
数据脱敏(2)
bi(2)
date(2)
hdfs(2)
null(2)
shuffle(2)
测试(2)
程序(2)
程序员(2)
服务(2)
链表(2)
内存(2)
配置(2)
入门(2)
实践(2)
系统(2)
原理(2)
费用中心(1)
负载均衡(1)
比特币(1)
tensorflow(1)
ios(1)
objective-c(1)
c 语言(1)
actionscript(1)
css(1)
ajax(1)
sqlite(1)
nosql(1)
memcached(1)
access(1)
mvc(1)
svn(1)
struts(1)
tomcat(1)
中文分词(1)
lucene/solr(1)
analyzer(1)
负载均衡缓存(1)
tornado(1)
GPU 云服务器(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
云直播(1)
短视频(1)
腾讯云可观测平台(1)
SSL 证书(1)
数据加密服务(1)
腾讯git代码托管(工蜂)(1)
数据备份(1)
express(1)
rollup.js(1)
游戏(1)
互联网金融(1)
爬虫(1)
正则表达式(1)
mybatis(1)
sql server(1)
opencv(1)
自动化测试(1)
kotlin(1)
scrapy(1)
dubbo(1)
ddos(1)
udp(1)
kernel(1)
socket编程(1)
无监督学习(1)
nat(1)
nest(1)
视频分析(1)
flutter(1)
风控平台(1)
安全运营平台(1)
特征工程(1)
unicode(1)
迁移(1)
groovy(1)
功能测试(1)
性能测试(1)
es(1)
实时数据集成(1)
事件总线(1)
腾讯云数据仓库 TCHouse(1)
数据湖分析(1)
智能推荐平台(1)
教育(1)
数据库审计(1)
class(1)
cpu(1)
data(1)
decimal(1)
dump(1)
elk(1)
event(1)
exists(1)
final(1)
flume(1)
foreach(1)
for循环(1)
frequency(1)
function(1)
gc(1)
google(1)
gson(1)
initialization(1)
ip(1)
it(1)
jackson(1)
java8(1)
lambda(1)
list(1)
map(1)
message(1)
overflow(1)
public(1)
push(1)
quartz(1)
rank(1)
redis(1)
request(1)
return(1)
select(1)
server(1)
sqoop(1)
stack(1)
static(1)
streaming(1)
string(1)
stringbuilder(1)
subquery(1)
thrift(1)
web(1)
报表(1)
闭包(1)
变量(1)
编译(1)
边缘计算(1)
创业(1)
磁盘(1)
单例模式(1)
登录(1)
多线程(1)
工具(1)
工作(1)
行业(1)
混合云(1)
集合(1)
技巧(1)
集群(1)
监控(1)
解决方案(1)
开发(1)
面试(1)
生命周期(1)
事件(1)
实时计算(1)
事务(1)
数据管理(1)
同步(1)
统计(1)
网关(1)
线程池(1)
效率(1)
协议(1)
性能(1)
性能监控(1)
性能优化(1)
异步编程(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
京东面试题:讲一下JVM调优策略
jvm
dump
gc
ps
string
阅读本文前,请您先点击上面的“蓝色字体”,再点击“关注”,这样您就可以每天学习一点新知识,每天都有进步。
Spark学习技巧
2023-03-21
404
0
Apache Spark 内存管理(堆内/堆外)详解
spark
文件存储
存储
jvm
缓存
本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。
Spark学习技巧
2022-01-13
1.5K
0
Java 如何实现动态脚本?
jvm
打包
groovy
apache
java
阿里妹导读:在平台级的 Java 系统中,动态脚本技术是不可或缺的一环。本文分享了一种 Java 动态脚本实现方案,给出了其中的关键技术点,并就类重名问题、生命周期、安全问题等做出进一步讨论,欢迎同学们共同交流。
Spark学习技巧
2021-03-05
1.9K
0
你知道 Java 类是如何被加载的吗?
jvm
java
最近给一个非 Java 方向的朋友讲了下双亲委派模型,朋友让我写篇文章深度研究下JVM 的 ClassLoader,我确实也好久没写 JVM 相关的文章了,有点手痒痒,涂了皮炎平也抑制不住的那种。
Spark学习技巧
2019-10-31
1.1K
0
spark sql 非业务调优
spark
缓存
sql
数据库
jvm
这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。默认的参数已经很好了,对于GC算法,spark sql可以尝试一些 G1。
Spark学习技巧
2019-07-30
1.3K
0
面试必备|spark 高层通用调优
文件存储
mapreduce
spark
jvm
如果并行度设置的不足,那么就会导致集群浪费。Spark自动会根据文件的大小,是否可分割等因素来设置map的数目(后面会详细讲解输入格式,同时详细讲解各种输入的map数的决定)。对于分布式reduce操作,例如groupbykey和reducebykey,默认它使用的是分区数最大的父RDD的分区数决定reduce的数目。你也可以通过设置spark.default.parallelism来改变默认值,建议值是每个CPU执行2-3个tasks。
Spark学习技巧
2019-07-15
912
0
Java8内存结构的改变~
jdk
jvm
单片机
java
根据 JVM 规范,JVM 内存共分为虚拟机栈、堆、方法区、程序计数器、本地方法栈五个部分。
Spark学习技巧
2019-07-15
1.1K
0
解惑|很多人对spark内存调优不太理解的配置
spark
存储
缓存
jvm
其中有段话:在gc的统计信息中,如果老年代接近满了, 减少用于缓存的内存(通过减小spark.memory.Fraction)。 缓存较少的对象比降低运行速度对我们来说更有好处。 另外,可以考虑减少年轻代。可以通过减小-Xmn参数设置的值,假如使用的话。 假如没有设置可以修改JVM的NewRation参数。 大多数JVMs默认值是2,意思是老年代占用了三分之二的总内存。 这个值要足够大,相当于扩展了spark.memory.fraction.
Spark学习技巧
2019-07-09
2.3K
0
JAVA 引用详解
java
jvm
缓存
引用链条可以说是jvm垃圾回收的根本,而且很多编程都可以利用引用类型和jvm之间的关系来做一些系统优化。比如spark,缓存及广播变量的回收等就是采用的弱引用。本文先来介绍一下java的四种引用类型。
Spark学习技巧
2019-07-09
706
0
面试|详解CAS及其引发的三个问题
编程算法
jdk
jvm
在多线程编程的时候,为了保证多个线程对一个对象可以安全进行访问时,我们需要加同步锁synchronized,保证对象的在使用时的正确性,synchronized就是一种独占锁,它会导致所有需要此锁的线程挂起,等待锁的释放。
Spark学习技巧
2019-07-08
6.8K
0
美团面试题:JVM堆内存溢出后,其他线程是否可继续工作?
linux
jvm
其他
java
最近网上出现一个美团面试题:“一个线程OOM后,其他线程还能运行吗?”。我看网上出现了很多不靠谱的答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。
Spark学习技巧
2019-06-28
544
0
探索 Java 热部署的奥妙
java
jvm
在 Java 开发领域,热部署一直是一个难以解决的问题,目前的 Java 虚拟机只能实现方法体的修改热部署,对于整个类的结构修改,仍然需要重启虚拟机,对类重新加载才能完成更新操作。对于某些大型的应用来说,每次的重启都需要花费大量的时间成本。虽然 osgi 架构的出现,让模块重启成为可能,但是如果模块之间有调用关系的话,这样的操作依然会让应用出现短暂的功能性休克。本文将探索如何在不破坏 Java 虚拟机现有行为的前提下,实现某个单一类的热部署,让系统无需重启就完成某个类的更新。
Spark学习技巧
2019-05-23
827
0
必会:关于SparkStreaming checkpoint那些事儿
spark
jvm
spark Streaming的checkpoint是一个利器,帮助在driver端非代码逻辑错误导致的driver应用失败重启,比如网络,jvm等,当然也仅限于支持自动重启的集群管理器,比如yarn。由于checkpoint信息包含序列化的Scala / Java / Python对象,尝试使用新的修改类反序列化这些对象可能会导致错误。
Spark学习技巧
2018-08-20
1.1K
0
JAVA中序列化和反序列化中的静态成员问题
java
jvm
关于这个标题的内容是面试笔试中比较常见的考题,大家跟随我的博客一起来学习下这个过程。
Spark学习技巧
2018-08-01
720
0
Java面试知识点解析——JVM篇
java
jvm
存储
一、JVM 基础知识 1)Java 是如何实现跨平台的? 注意:跨平台的是 Java 程序,而不是 JVM。JVM 是用 C/C++ 开发的,是编译后的机器码,不能跨平台,不同平台下需要安装不同版本的 JVM 答:我们编写的 Java 源码,编译后会生成一种 .class 文件,称为字节码文件。Java 虚拟机(JVM)就是负责将字节码文件翻译成特定平台下的机器码然后运行,也就是说,只要在不同平台上安装对应的 JVM,就可以运行字节码文件,运行我们编写的 Java 程序。 而这个过程,我们编写的 Java
Spark学习技巧
2018-06-22
603
0
锁机制-java面试
jvm
何为同步?JVM规范规定JVM基于进入和退出Monitor对象来实现方法同步和代码块同步,但两者的实现细节不一样。代码块同步是使用monitorenter和monitorexit指令实现,而方法同步是使用另外一种方式实现的,细节在JVM规范里并没有详细说明,但是方法的同步同样可以使用这两个指令来实现。monitorenter指令是在编译后插入到同步代码块的开始位置,而monitorexit是插入到方法结束处和异常处, JVM要保证每个monitorenter必须有对应的monitorexit与之配对。任何对
Spark学习技巧
2018-04-17
892
0
Java反射机制深入详解
java
jvm
一.概念 反射就是把Java的各种成分映射成相应的Java类。 Class类的构造方法是private,由JVM创建。 反射是java语言的一个特性,它允程序在运行时(注意不是编译的时候)来进行自我检查并且对内部的成员进行操作。例如它允许一个java的类获取他所有的成员变量和方法并且显示出来。Java 的这一能力在实际应用中也许用得不是很多,但是在其它的程序设计语言中根本就不存在这一特性。例如,Pascal、C 或者 C++ 中就没有办法在程序中获得函数定义相关的信息。 (来自Sun) Ja
Spark学习技巧
2018-02-07
2.1K
0
JAVA之ClassLoader
java
jvm
JAVA基础系列之ClassLoader 一,Java类的加载、链接与初始化 1,加载:查找并加载类的二进制数据 • 通过一个类的全限定名来获取定义此类的二进制字节流 • 将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构 • 在内存中生成一个代表这个类的java.lang.Class类对象,作为方法区这个类的各种数据的访问入口。 2,链接 验证: 确保被加载类的正确性 准备: 为类的静态变量分配内存,并将其初始化为默认值 解析: 把类中的符号引用转化为直接引用 3,初始化 为类的静态变量赋予正确
Spark学习技巧
2018-01-31
614
0
JVM的垃圾回收算法
jvm
编程算法
JVM的垃圾回收算法 一,如何判断对象已经消亡 1,引用计数算法 一个对象如果没有任何引用指向它,就可认为该对象已经”消亡“,这种方法有个缺点就是无法检测到引用环的存在。 算法特点 1. 需要单独的字段存储计数器,增加了存储空间的开销; 2. 每次赋值都需要更新计数器,增加了时间开销; 3. 垃圾对象便于辨识,只要计数器为0,就可作为垃圾回收; 4. 及时回收垃圾,没有延迟性; 5. 不能解决循环引用的问题; 2,根搜索算法 Java使用根搜索算法回收垃圾,该算法的基本原理:定义一系列名为GC Roots的
Spark学习技巧
2018-01-30
602
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档