Spark学习之Spark Streaming(9)

Spark学习之Spark Streaming(9)

1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码。

2. Spark Streaming使用离散化(discretized steam)作为抽象表示,叫做DStream。DStream是随时间推移而收到的数据的序列。

3. DSteam支持两种操作:转换操作(transformation),会生成一个新的DStream;另一种是输出操作(output operation),可以把数据写入到外部系统中。

4. Spark Stream的简单例子

需求:使用maven或者sbt打包编译出来独立应用的形式运行。从一台服务器的7777端口接受一个以换行符分隔的多行文本,要从中筛选出包含单词error的行,并打印出来。

    //Maven 索引
    groupID = org.apache.spark
    artifactID = spark-steaming_2.10
    version = 1.2.0
    //Scala流计算import声明
    import org.apache.spark.streaming.StreamingContext
    import org.apache.spark.streaming.StreamingContext._
    import org.apache.spark.streaming.dstream.DStream
    import org.apache.spark.streaming.Duration
    import org.apache.spark.streaming.Seconds
    //用Scala进行流式筛选,打印包含“error”的行
        //从SparkConf创建StreamingContext并指定1秒钟的处理
    val ssc = new SteamingContext(conf,Seconds(1))
        //连接到本地机器7777端口上后,使用收到的数据创建DStream
    val lines = ssc.socketTextStream("localhost",7777)
        //从DStream中筛选出包含字符串“error”的行
    val errorLines = lines.filter(_.contains("error"))
        //  打印拥有“error”的行
    errorLines.print()
    //用Scala进行流式筛选,打印出包含“error”的行
    ssc.start()
    //等待作业完成
    ssc.awaitTermination()
注意:一个Streaming context只能执行一次,所以只有在配置好所有DStream以及所需要的输出操作之后才启动。

最后:在Linux/Mac操作系统上运行流计算应用并提供数据
    $spark-submit --class com.oreilly.learningsparkexamples.scala.streamingLogInput \
    $ASSEMBLY_JAR local[4]

    $ nc localhost 7777 # 使你可以键入输入的行来发送给服务器 
Windows nc命令对应ncat

5. DStream 的转化操作可以分为两种:无状态(stateless)转化操作和有状态(stateful)转化操作。

5.1无状态转化操作中,每个批次的处理不依赖于之前批次的数据。
例如map()、filter()、reduceByKey()等。
5.2有状态转化操作中,需要使用之前批次的数据或者中间结果来计算当前批次的数据。
有状态转化操作包括基于滑动窗口的转化操作和追踪状态变化的转化操作。

6. 输出操作

输出操作指定了对数据经转化操作得到的数据所要执行的操作(例如把结果输出推入外部数据库或输出到屏幕上)。

7. 输入源包括:核心数据源、附加数据源、多数据源与集群规模。

8. Steaming用户界面http://localhost:4040可以查看运行详细信息。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏肖力涛的专栏

Spark 踩坑记:从 RDD 看集群调度

本文的思路是从spark最细节的本质,即核心的数据结构RDD出发,到整个Spark集群宏观的调度过程做一个整理归纳,从微观到宏观两方面总结,方便自己在调优过程中...

9332
来自专栏祝威廉

Spark Streaming 数据产生与导入相关的内存分析

我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。

733
来自专栏牛肉圆粉不加葱

[Spark Q&A]如果中间输出RDD在内存放不下会怎么样?

这个问题其实问的 RDD 缓存机制。我们可以调用 persist() 或 cache()方法来缓存 RDD。Spark 的缓存是具有容错性的,如果 RDD 的任...

742
来自专栏about云

让你真正明白spark streaming

spark streaming介绍 Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等...

2947
来自专栏肖力涛的专栏

Spark踩坑记:Spark Streaming+kafka应用及调优

本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka 在舆情项目中的应用,最后将自己...

4K2
来自专栏Fish

《深入理解Spark-核心思想与源码分析》读书笔记(2)

第四章 存储体系 这章主要讲的就是如何存储,包括存内存,存硬盘,还有存Tachyon ? 这个图写画得灰常好,下面是对其中序号的解释。 1)...

2326
来自专栏牛肉圆粉不加葱

揭开Spark Streaming神秘面纱⑥ - Spark Streaming结合 Kafka 两种不同的数据接收方式比较

DirectKafkaInputDStream 只在 driver 端接收数据,所以继承了 InputDStream,是没有 receivers 的

591
来自专栏牛肉圆粉不加葱

Spark Streaming + Kakfa 编程指北

本文简述如何结合 Spark Streaming 和 Kakfa 来做实时计算。截止目前(2016-03-27)有两种方式:

854
来自专栏数据处理

提交任务到集群

1402
来自专栏Java 源码分析

SparkStreaming 入门

1888

扫码关注云+社区