岑玉海

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

　　Spark在standalone模式下，默认是使用FIFO的模式，我们可以使用spark.cores.max 来设置它的最大核心数，使用spark.executor.memory 来设置它的内存。
     在YARN模式下，使用--num-workers设置worker的数量，使用--worker-memory设置work的内存，使用--worker-cores设置worker的核心数。
     下面介绍一下怎么设置Spark的调度为Fair模式。
　　在实例化SparkContext之前，设置sp

Spark作业调度

1、存储系统
　　如果可以的话，把Spark的hadoop的节点安装在一起，最容易的方式是用standalone的模式安装，用mapred.child.java.opts设置每个任务的内存，用mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum来设置map和reduce任务的最大数来分隔来这两个集群的可利用资源，也可以考虑用YARN模式。
　　如果不行，就在一个局域网里面。但是对于Hbase这样的低延迟的系统

Spark硬件配置推荐

因为Spark是内存当中的计算框架，集群中的任何资源都会让它处于瓶颈，CPU、内存、网络带宽。通常，内存足够的情况之下，网络带宽是瓶颈，这时我们就需要进行一些调优，比如用一种序列化的方式来存储RDD来减少内存使用，这边文章就讲两种方式，数据序列化和内存调优，接下来我们会分几个主题来谈论这个调优问题。
1、数据序列化
（1） Spark默认是使用Java的ObjectOutputStream框架，它支持所有的继承于java.io.Serializable序列化,如果想要进行调优的话，可以通过继承java.io

Spark调优

　　Spark的部署让人有点儿困惑，有些需要注意的事项，本来我已经装成功了YARN模式的，但是发现了一些问题，出现错误看日志信息，完全看不懂那个错误信息，所以才打算翻译Standalone的部署的文章

Spark部署

自定义一个Receiver
 class SocketTextStreamReceiver(host: String, port: Int(
         extends NetworkReceiver[String]
       {
         protected lazy val blocksGenerator: BlockGenerator =
           new BlockGenerator(StorageLevel.MEMORY_ONLY_SER_2)

         p

Spark Streaming自定义Receivers

　　Spark自带了机器学习的算法mlib，页面网址 http://spark.incubator.apache.org/docs/latest/mllib-guide.html 
　　但是运行的时候，遇到了很多问题，着实让我头疼了很久，不过最后还是解决了，下面说一下这两个问题吧。
　　第一个demo运行到val model = SVMWithSGD.train(parsedData, numIterations)这一句的时候遇到了lzo的jar包。
　　我是这么解决的，方法不是很好，我修改了spark-e

Spark的机器学习算法mlib的例子运行

Spark1.0出来了，变化还是挺大的，文档比以前齐全了，RDD支持的操作比以前多了一些，Spark on yarn功能我居然跑通了。但是最最重要的就是多了一个Spark SQL的功能，它能对RDD进行Sql操作，目前它只是一个alpha版本，喜欢尝鲜的同志们进来看看吧，下面是它的官网的翻译。
Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就

Spark1.0新特性-->Spark SQL

Overview
Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。
它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP

Spark Streaming编程指南

1、在maven里面添加引用，spark和hdfs的客户端的。
groupId = org.apache.spark
artifactId = spark-core_2.9.3
version = 0.8.1-incubating 
groupId = org.apache.hadoop
artifactId = hadoop-client
version = <your-hdfs-version>
2、把assembly/target/spark-assembly_2.9.3-0.8.1-incubati

Spark编程指南

本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现，1.0.0里面已经是一个stable的版本了，可是1.0.1也出来了，离1.0.0发布才一个月的时间，更新太快了，节奏跟不上啊，这里仍旧是讲1.0.0的代码，所以各位朋友也不要再问我讲的是哪个版本，目前为止发布的文章都是基于1.0.0的代码。
在第一章《spark-submit提交作业过程》的时候，我们讲过Spark on yarn的在cluster模式下它的main class是org.apach

Spark源码系列（七）Spark on yarn具体实现

好久没更新博客了，之前学了一些R语言和机器学习的内容，做了一些笔记，之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了，因为一些别的事情耽误了，今天就简单写点，Spark1.2马上就要出来了，不知道变动会不会很大，据说添加了很多的新功能呢，期待中...
首先声明一下这个版本的代码是1.1的，之前讲的都是1.0的。
Spark支持两种模式，一种是在spark里面直接写sql，可以通过sql来查询对象，类似.net的LINQ一样，另外一种支持hive的HQL。不管是哪种方式，下面提到

Spark源码系列（九）Spark SQL初体验之解析过程详解

Spark大会上，所有的演讲嘉宾都认为shuffle是最影响性能的地方，但是又无可奈何。之前去百度面试hadoop的时候，也被问到了这个问题，直接回答了不知道。
这篇文章主要是沿着下面几个问题来开展：
1、shuffle过程的划分？
2、shuffle的中间结果如何存储？
3、shuffle的数据如何拉取过来？
Shuffle过程的划分
Spark的操作模型是基于RDD的，当调用RDD的reduceByKey、groupByKey等类似的操作的时候，就需要有shuffle了。再拿出reduceByKey这个

Spark源码系列（六）Shuffle的过程解析

这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。
  def persist(newLevel: StorageLevel): this.type = {
    // StorageLevel不能随意更改
    if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) {
      throw new UnsupportedOperationException(

Spark源码系列（五）分布式缓存

这一章我们探索了Spark作业的运行过程，但是没把整个过程描绘出来，好，跟着我走吧，let you know！
我们先回顾一下这个图，Driver Program是我们写的那个程序，它的核心是Spar

Spark源码系列（四）图解作业生命周期

作业执行
上一章讲了RDD的转换，但是没讲作业的运行，它和Driver Program的关系是啥，和RDD的关系是啥？
官方给的例子里面，一执行collect方法就能出结果，那我们就从collect开始看吧，进入RDD，找到collect方法。
  def collect(): Array[T] = {
    val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)
    Array.concat(results: _*)
  

Spark源码系列（三）作业运行过程

1、什么是RDD？
上一章讲了Spark提交作业的过程，这一章我们要讲RDD。简单的讲，RDD就是Spark的input，知道input是啥吧，就是输入的数据。
RDD的全名是Resilient Distributed Dataset，意思是容错的分布式数据集，每一个RDD都会有5个特征：
1、有一个分片列表。就是能被切分，和hadoop一样的，能够切分的数据才能并行计算。
2、有一个函数计算每一个分片，这里指的是下面会提到的compute函数。
3、对其他的RDD的依赖列表，依赖还具体分为宽依赖和窄依赖，

Spark源码系列（二）RDD详解

前言
折腾了很久，终于开始学习Spark的源码了，第一篇我打算讲一下Spark作业的提交过程。
这个是Spark的App运行图，它通过一个Driver来和集群通信，集群负责作业的分配。今天我要讲的是如

Spark源码系列（一）spark-submit提交作业过程

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了岑玉海专栏，为你提供了岑玉海的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐