spark源码_spark 源码_spark的源码编译linux - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

Spark存储体系底层架构剖析-Spark商业环境实战

sparksql源码共读 | 复习&答疑&大家遇到问题总结

sparksql源码共读进行三次了，上周手把手debug源码，快炸裂了，这周安排一次复习，总结一下大家遇到的问题。

重要|Spark driver端得到executor返回值的方法

有人说spark的代码不优雅，这个浪尖就忍不了了。实际上，说spark代码不优雅的主要是对scala不熟悉，spark代码我觉得还是很赞的，最值得阅读的大数据框架之一。

Spark学习：Spark源码和调优简介 Spark Core (二）

本文基于 Spark 2.4.4 版本的源码，试图分析其 Core 模块的部分实现原理，其中如有错误，请指正。为了简化论述，将部分细节放到了源码中作为注释，因此正文中是主要内容。

我攻克的技术难题 - Spark01：初见Spark，又是Hello World？

在18年初刚开始接触学习spark的时候，买了一本《Spark大数据处理技术》的书，虽然后来一些Spark开发的知识都是从官网和实践中得来的，但是这本书对我来说是启蒙和领路的作用。

下周开怼——Spark sql源码分享

有同学不会scala，从网上找了免费的scala视频，链接已经放在了知识星球的置顶帖，下周要跟的同学，得提前看看

spark源码导读一

1，业务需求，现有框架满足不了项目需要，需要对源码的一部分进行修改或者叫做二次开发，需要阅读部分源码。那么这个针对性就很强了，修改不符合需求的部分。

源码编译搭建Spark3.x环境

首先安装好JDK、Scala和Maven，由于安装都比较简单，本文就不演示了，我这里使用的JDK、Scala和Maven版本如下：

如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

问题导读 1.通过什么途径，可以查看与spark兼容的组件版本？ 2.如何获取pom文件？ 3.pom文件中包含了哪些信息？ 4.spark编译通过什么参数可以指定hadoop版本？当我们安装

Spark内核分析之Master的注册机制实现原理

这篇文章我们来讨论一下Master的注册机制；那么有哪些信息需要注册到Master上面去呢？很简单，分别有Worker的注册，Driver的注册，Application的注册。明确了这个以后我们来看一张图；

基于zookeeper leader选举方式一

一，基本介绍 Curator Framework是一个针对zookeeper做的搞层次的API，极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能，处理复杂的链接管理，重试操作。下面是它的一些特点： 1，自动连接管理。 A),存在的潜在错误情况,需要ZooKeeper客户端创建连接和/或重试操作。Curator 自动和透明（主要）处理这些情况。 B),监视NodeDataChanged事件，并根据需要调用updateServerList（）。 C),Watches 会被Curato

IDEA本地执行&调试Spark Application方法

对于一些比较简单的application，我们可以在IDEA编码并直接以local的方式在IDEA运行。有两种方法：

浪尖说spark的coalesce的利弊及原理

浪尖的粉丝应该很久没见浪尖发过spark源码解读的文章，今天浪尖在这里给大家分享一篇文章，帮助大家进一步理解rdd如何在spark中被计算的，同时解释一下coalesce降低分区的原理及使用问题。

Spark历险记之编译和远程任务提交

Spark简介 Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件，也就是BDAS（伯克利数据分析栈），这些组件逐渐形成大数据处理一站式解决平台

Spark源码分析之Spark-submit和Spark-class

有了前面spark-shell的经验，看这两个脚本就容易多啦。前面总结的Spark-shell的分析可以参考： Spark源码分析之Spark Shell（上） Spark源码分析之Spark Shell（下） Spark-submit if [ -z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd "`dirname "$0"`"/..; pwd)" fi # disable randomized hash for string in Python

Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？

利用IDEA查看和修改spark源码

本文介绍了如何利用IDEA查看和修改spark源码，通过下载源码、编译并运行SparkPi，了解SparkPi的代码实现，并通过修改源码实现Pi的计算。

sparkstreaming的状态计算-updateStateByKey源码

转发请注明原创地址：https://www.cnblogs.com/dongxiao-yang/p/11358781.html

hadoop 2.4.1 上安装spark 1.1.0

进入到http://localhost:port访问Ipython Notebook

关于最近读的书的一些瞎扯

最近两个月是真的忙，忙的公众号都没有坚持更新了。现在我又回来了。在此准备瞎扯几句，顺便推荐下自己的最近读过的书，

一文详解scala泛型及类型限定

今天知识星球球友，微信问浪尖了一个spark源码阅读中的类型限定问题。这个在spark源码很多处出现，所以今天浪尖就整理一下scala类型限定的内容。希望对大家有帮助。

2019年美团、滴滴、蘑菇街Java岗9次面试总结

大概在三月份开始面了几家互联网公司，主要方向是java后端和大数据开发，最近整理学习资料，都快秋招了，发的有点晚了，不过还是想分享一下。美团，滴滴，蘑菇街等公司的面经。

如何阅读源码，这一篇应该够了

很多人一定和我一样的感受：源码在工作中有用吗？用处大吗？很长一段时间，我也有这样的疑问，认为那些有事没事扯源码的人，就是在装，只是为了提高他们的逼格而已。

聊聊Scala

Scala确是一门神奇的语言，从语言特性上来说远比Java、Python更加学院派，Martin大大作为一名教授，使得每个Scala新的特性大多会有一篇博士论文作为支持，不像Python，只有一个PEP提案。看来语言的发明者是教授确实好处很多，但是带来的坏处也不言而喻，曲高而和寡，叫好而不叫座。例如扎根Scala里的函数式编程思想，使用val表示不变量还好理解，高阶函数和惰性求值也还好，稍微思考下也能勉强理解能用了，monoid是什么鬼？可应用和可遍历的函子又是啥？相信读者大部分也一脸迷糊了。这就是Scala，用Scala写Java的程序也还好，毕竟Scala兼容Java，允许程序员龟缩在自己的一亩三分地，抱怨着“学不动了”，更甚者，作为一个允许在Jvm上的，静态类型的编译语言，Scala也能让你写出Python的感觉。

利用VisualVM监控Spark Driver/Executor

VisualVM是我们平时最常用的Java应用监控和性能分析工具，功能很丰富。我们有时会利用它来监控Spark作业，主要是Driver和Executor的运行情况。VisualVM支持jstatd和JMX两种方式连接远程JVM，本文简单叙述一下方法。

Spark内核分析之spark作业的三种提交方式

最近在研究Spark源码，顺便记录一下，供大家学习参考，如有错误，请批评指正。好，废话不多说，这一篇先来讲讲Spark作业提交流程的整体架构。

Hive on spark的搭建记录原

注：Hadoop-2.7.7、Hive-2.1.1、spark-1.6.0-bin-hadoop2.6，操作系统是Ubuntu18 64bit。最近做Hive on spark的任务，记录下。

如何获取Yarn和Spark UI界面指标信息

ip和port：Yarn ResourceManager active节点的ip地址和端口号

如何让开源项目成为你的良师益友

现在大部分公司产品的基石都是开源项目，从开发包到产品本身。我甚至在想，没有开源项目的世界将会是一个什么样的世界。互联网的共享精神让互联网得以如此的快速的发展。

SparkStreaming（源码阅读十二）

要完整去学习spark源码是一件非常不容易的事情，但是咱可以积少成多嘛~那么，Spark Streaming是怎么搞的呢？

spark调优系列之高层通用调优

一，并行度集群不会被充分利用，除非您将每个操作的并行级别设置得足够高。Spark自动会根据文件的大小，是否可分割等因素来设置map的数目(后面会详细讲解输入格式，同时详细讲解各种输入的map数的决定)。对于分布式reduce操作，例如groupbykey和reducebykey，默认它使用的是分区数最大的父RDD的分区数决定reduce的数目。你也可以通过设置spark.default.parallelism来改变默认值，建议值是每个CPU执行2-3个tasks。二，Reduce任务的内存使用有时候内

spark scheduler_scheduledthreadpool

在Spark中一个核心的是模块就是调度器（Scheduler），在spark中Scheduler有两种TaskScheduler（是低级的调度器接口），DagScheduler（是高级的调度）

快速搭建Spark环境之local本地模式-Spark初体验（2）

上一篇《大数据最火的Spark你确定不来了解一下吗？（1）》给大家详细介绍了Spark，下面教给大家怎样去搭建Spark的环境.

spark源码阅读基本思路

a.解决企业中bug。比如flink早期bug，就很多，如json序列化工具，在开启flink仅一次处理，json格式不符合要求，就会抛异常而挂掉，然后重试，挂掉。这明显不科学，要解决这个bug就要会读源码，改源码。

Spark性能调优九之常用算子调优

前面介绍了很多关于Spark性能的调优手段，今天来介绍一下Spark性能调优的最后一个点，就是关于Spark中常用算子的调优。废话不多说，直接进入正文；

Spark源码 —— 从 SparkSubmit 到 Driver启动

本文主要是以笔记的整理方式写的，仅以分享的方式供你阅读，如有不对的地方欢迎指点错误。读完本文可以学到：当你用 shell 命令执行 spark-submit 之后，到你的代码开始正式运行的一些列知识和细节，恩...粗略的，要看的更细，可以按照流程自己撸源码哈~~~~

Spark初步认识与安装

Spark官方文档：https://spark.apache.org/docs/2.3.0/rdd-programming-guide.html

Spark2.x学习笔记：16、Spark Streaming入门实例NetworkWordCount

必会:关于SparkStreaming checkpoint那些事儿

spark Streaming的checkpoint是一个利器，帮助在driver端非代码逻辑错误导致的driver应用失败重启，比如网络，jvm等，当然也仅限于支持自动重启的集群管理器，比如yarn。由于checkpoint信息包含序列化的Scala / Java / Python对象，尝试使用新的修改类反序列化这些对象可能会导致错误。

如何安装Spark & TensorflowOnSpark

对的，你没看错，这是我的一条龙服务，我在入坑填坑无数之后终于成功搭建起了Spark和TensorflowOnSpark的运行环境，并成功运行了示例程序（大概就是手写识别的训练和识别吧）。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐