Spark如何在一个SparkContext中提交多个任务

在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。

考虑下面一种场景,在HDFS上某个目录下面有10个文件,我想要同时并行的去统计每个文件的数量,应该怎么做? 其实spark是支持在一个spark context中可以通过多线程同时提交多个任务运行,然后spark context接到这所有的任务之后,通过中央调度,在来分配执行各个task,最终任务完成程序退出。

下面就来看下如何使用多线程提交任务,可以直接使用new Thread来创建线程提交,但是不建议这么做,推荐的做法是通过Executors线程池来异步管理线程,尤其是在提交的任务比较多的时候用这个会更加方便。

核心代码如下:

可以看到使用scala写的代码比较精简,这样就完成了一个并行task提交的spark任务,最后我们打包完毕后,上传到linux上进行提交,命令如下:

最后需要注意一点,在线程里面调用的方法如果包含一些全局加载的属性,最好放在线程的成员变量里面进行初始化,否则多个线程去更改全局属性,有可能会造成一些未知的问题。

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2017-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏自动化测试实战

flask第九篇——url_for【2】

2796
来自专栏Python小屋

Python实现定时自动关闭的tkinter窗口

功能简要说明:程序运行后10秒钟自动关闭。 技术要点:tkinter应用程序的destroy()方法,多线程编程。 代码截图: ? 运行效果: ?

3746
来自专栏JadePeng的技术博客

Jupyter notebook安装与使用

Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 安装 安装python...

3916
来自专栏不想当开发的产品不是好测试

Git 默认不区分大小写

背景: 通过代码规范,修改了包名为全小写(修改了文件夹目录),但发现push后,git服务器的文件夹目录还是为大写 解决方法: git默认是不区分大小写的,意思...

21310
来自专栏雨过天晴

转 Mac OS/Linux命令查询网络端口占用情况

1403
来自专栏小勇DW3

SpringBoot Web学习笔记

  都会去 classpath:/META_INFO/resource/webjars/ 下找资源;

1224
来自专栏我的技术专栏

vi 方向键和Backspace键失效问题的解决方法

982
来自专栏Java成神之路

Oracle_Exception_01_The Network Adapter could not establish the connection

端口号错误:一般不会错误但可能使用多个oracle版本,导致端口号为1521的情况。  修改为正确的端口号,执行下面第2步。   

892
来自专栏ytkah

dedecms前端无法调用自定义变量怎么解决

  网友问ytkah说他的dedecms前端无法调用自定义变量要怎么解决,登录他的网站后台看了一下,自定义变量已经添加了,也写入了数据库表中,但是就是前台没办法...

6863
来自专栏Java爬坑系列

【JAVA零基础入门系列】Day1 开发环境搭建

一、安装JDK java的sdk简称JDK ,去其官方网站下载最近的JDK即可。 http://www.oracle.com/technetwork/java/...

2088

扫码关注云+社区

领取腾讯云代金券