如何使用Spark的local模式远程读取Hadoop集群数据

我们在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据,这样的目的是方便快速调试,而不用每写一行代码或者一个方法,一个类文件都需要打包成jar上传到linux上,再扔到正式的集群上进行测试,像功能性验证直接使用local模式来快速调测是非常方便的,当然功能测试之后,我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题,这个在local模式是没法测的,还有集群运行的调优参数,这些都可以在正式仍到集群时验证。

一个样例代码如下:

如何在spark中遍历数据时获取文件路径:

如果遍历压缩文件时想要获取文件名,就使用newAPIHadoopFile,此外在本地调试下通过之后,提交到集群运行的时候,一定要把uri去掉,本地加上是想让它远程读取方便调试使用,如果正式运行去掉uri在双namenode的时候可以自动兼容,不去反而成一个隐患了。

最后我们可以通过spark on yarn模式提交任务,一个例子如下:

这里选择用spark提交有另外一个优势,就是假如我开发的不是YARN应用,就是代码里没有使用SparkContext,而是一个普通的应用,就是读取mysql一个表的数据,写入另外一个mysql,这里跟MR没有关系,但是我依然可以用spark-sumbit提交,这时候是不会提交到YARN上的,但是程序会按普通程序运行,程序依赖的jar包,直接使用--jars传入就行,这一点非常方便,尤其是应用有多个依赖时,比如依赖es,hadoop,hbase,redis,fastjson,我打完包后的程序是瘦身的只有主体jar非常小,依赖的jar我可以不打到主体jar里面,在外部用的时候传入,方便共用并灵活性大大提高。

最后,spark的wholeTextFiles对gz压缩的支持不太友好,不能直接访问,相关问题,请参考:

http://stackoverflow.com/questions/24402737/how-to-read-gz-files-in-spark-using-wholetextfiles

http://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark

http://stackoverflow.com/questions/24402737/how-to-read-gz-files-in-spark-using-wholetextfiles?rq=1

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2017-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小程序之家

如何实现小程序与服务器通信

网络请求方式较多,大家可以参考如何在小程序中实现文件上传下载和如何在小程序中实现 WebSocket 通信实现更多与服务器请求。

2.2K5
来自专栏Laoqi's Linux运维专列

Linux防火墙-firewall

Firewall : 由于centOS 7采用了新的firewall防火墙,也是未来的一种趋势,所以咱们在7上面既可以使用6也可以使用7。 由于iptables...

7195
来自专栏我是攻城师

SparkStreamingj集成Kafka的几个重要参数

3987
来自专栏Jed的技术阶梯

spark读写HBase之使用hortonworks的开源框架shc(一):源码编译以及测试工程创建

以下是我修改后的两个子模块core和examples中的pom文件,只修改了version

2203
来自专栏后端技术探索

关于PHP脚本和浏览器连接深入解析

当 PHP 脚本正常地运行 NORMAL 状态时,连接为有效。当远程客户端中断连接时,ABORTED 状态的标记将会被打开。远程客户端连接的中断通常是由用户点击...

2081
来自专栏容器云生态

根据红帽RHEL7官方文档对centos7进行技术剖析(一)

序言:红帽7教学环境介绍 rht-vmctl命令介绍; $ rht-vmctl start desktop     启动desktop虚拟机 $ rht-vmc...

3246
来自专栏程序员同行者

hadoop分布式集群搭建

1301
来自专栏我是攻城师

如何管理Spark Streaming消费Kafka的偏移量(三)

4146
来自专栏积累沉淀

安转hbase集群----安装Zookeeper和Hbase

1.zookeeper安装 把解压文件从桌面移到安装目录software ? 解压 ? 显示文件 ? 修改zoo.cfg文件 ? 我的丛机就是主机 ...

2376
来自专栏Django中文社区

登录

用户已经能够在我们的网站注册了,注册就是为了登录,接下来我们为用户提供登录功能。和注册不同的是,Django 已经为我们写好了登录功能的全部代码,我们不必像之前...

8875

扫码关注云+社区

领取腾讯云代金券