Spark Streaming

Spark Streaming 是spark提供的对实时数据进行流式计算的组件。比如生产环境中的网页服务器日志,或者网络服务中用户提交的状态更新组成的消息队列,都是数据流。Spark Streaming提供了用来操作数据流的API,并且与Spark Core中的RDD API高度对应。这样一来,程序员编写应用时的学习门槛得以降低,无论是操作内存或硬盘中的数据,还是操作实时数据流,程序员都更能应对自如。从底层设计来看,Spark Streaming支持与Spark Core同级别的容错性、吞吐量以及可伸缩性。

Spark Streaming的核心是一种可拓展、容错的数据流系统,它采用RDD批量模式(即批量处理数据)并加快处理速度。同时它又有点过于简单,基本上Spark Streaming可以以小批量或批次间隔(从500毫秒到更大的间隔窗口)运行。

Spark Streaming接受输入数据流,并在内部将数据流分成多个较小的batch(batch 大小取决于batch的间隔)。Spark引擎将这些输入数据的batch处理后,生成处理过数据的batch结果集。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Spark学习技巧

关于Spark Streaming感知kafka动态分区的问题

本文主要是讲解Spark Streaming与kafka结合的新增分区检测的问题。读本文前关于kafka与Spark Streaming结合问题请参考下面两篇文...

1574
来自专栏大数据

Spark Streaming入门

本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展,支持连续的数据流...

7059
来自专栏祝威廉

Spark Streaming 数据接收优化

看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路...

1051
来自专栏华章科技

大数据技术Hadoop面试题,看看你能答对多少?答案在后面

a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker

1472
来自专栏技术专栏

慕课网Spark SQL日志分析 - 1.Hadoop概述

http://hadoop.apache.org/ 对于Apache项目来说,projectname.apache.org Hadoop:hadoop.ap...

2674
来自专栏Hadoop实操

HOSTS配置问题导致集群异常故障分析

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

4849
来自专栏PPV课数据科学社区

干货 | 98道常见Hadoop面试题及答案解析(一)

这是一篇hadoop的测试题及答案解析,题目种类挺多,一共有98道题,题目难度不大,对于高手来说,90分以上才是你的追求。 1 单选题 1.1 下面哪个程序负责...

3544
来自专栏王小雷

Hadoop YARN学习之核心概念(2)

Hadoop YARN学习之核心概念(2) 1. Hadoop 2.X YARN引入的新服务 1.1 新的ResourceManager纯碎作为资源调度器,是集...

26510
来自专栏编程

大数据干货系列(六)-Spark总结

本文共计1611字,预计阅读时长八分钟 Spark总结 一、本质 Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程 二、...

2165
来自专栏Albert陈凯

大数据面试选择题hadoop

1.1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNa...

1.3K4

扫码关注云+社区

领取腾讯云代金券