使用Spark SQL构建批处理程序

StreamingPro目前已经涵盖流式/批处理,以及交互查询三个领域,实现配置和SQL化

前言

今天介绍利用 StreamingPro 完成批处理的流程。

准备工作

  • 下载StreamingPro

README中有下载地址

我们假设您将文件放在了/tmp目录下。

填写配置文件

  • 实例一,我要把数据从ES导出到HDFS,并且形成csv格式。

gist

在批处理模式下,所有的数据源和输出都各自有一个固定的模块(使用了Spark的Datasource API),然后对模块做配置即可,无需使用不同的模块。

在这个示例里,你需要配置上ES集群作为输入,配置hdfs作为输出,从而完成运行。

启动StreamingPro

Local模式:

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar     \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:///tmp/test.json

访问

http://127.0.0.1:4040

可进入Spark UI

集群模式:

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://cluster/tmp/test.json

这里需要注意的是,配置文件并蓄放到HDFS上,并且需要协商hdfs前缀。这是一个标准的Spark 批处理程序

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏维C果糖

详述 IntelliJ IDEA 中自动生成 serialVersionUID 的方法

当我们用 IntelliJ IDEA 编写类并实现 Serializable(序列化)接口的时候,可能会遇到这样一个问题,那就是: 无法自动生成serialVe...

31010
来自专栏猿人谷

hadoop 1.x环境搭建

近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文。 首先要了解一下Hadoop的运行模式: 单机模式(standalone)       ...

21210
来自专栏刘远的专栏

airflow—服务失效监控(5)

因为DAG文件会在调度器和worker执行时加载,如果在DAG中引用了第三方的库或进行了DB操作,则这些操作会在DAG文件加载时被频繁调用。举个例子,如果升级了...

2773
来自专栏Spark学习技巧

Spark的调度系统

一,简介 Spark调度机制可以理解为两个层面的调度。首先,是Spark Application调度。也就是Spark应用程序在集群运行的调度,应用程序包括Dr...

2608
来自专栏about云

Hadoop集群搭建总结及Hadoop2.5集群伪分布、完全分布搭建总结

问题导读 1.你认为Hadoop集群的搭建有什么共同点? 2.低版本升级高版本,你是如何操作的? Hadoop集群的搭建除了Hadoop1与Hadoop...

3708
来自专栏LanceToBigData

Hadoop(四)HDFS集群详解

前言   前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。   H...

5149
来自专栏Hadoop实操

如何为Kerberos环境的CDH集群在线扩容数据节点

Hadoop集群其中一个优点就是可伸缩性(横向扩展),通过增加计算节点使服务容量产生线性增长的能力。可伸缩的应用程序的主要特点是:只需要增加资源,而不需要对应用...

5898
来自专栏我是攻城师

Apache Pig入门学习文档(一)

3975
来自专栏大数据技术学习

大数据-Hadoop小文件问题解决方案

HDFS中小文件是指文件size小于HDFS上block(dfs block size)大小的文件。大量的小文件会给Hadoop的扩展性和性能带来严重的影响。

2927
来自专栏LuckQI

Java大数据学习~Hadoop初识一了解其架构

923

扫码关注云+社区

领取腾讯云代金券