前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark Streaming

Spark Streaming

作者头像
week
发布2018-12-07 11:27:14
6470
发布2018-12-07 11:27:14
举报
文章被收录于专栏:用户画像

Spark Streaming 是spark提供的对实时数据进行流式计算的组件。比如生产环境中的网页服务器日志,或者网络服务中用户提交的状态更新组成的消息队列,都是数据流。Spark Streaming提供了用来操作数据流的API,并且与Spark Core中的RDD API高度对应。这样一来,程序员编写应用时的学习门槛得以降低,无论是操作内存或硬盘中的数据,还是操作实时数据流,程序员都更能应对自如。从底层设计来看,Spark Streaming支持与Spark Core同级别的容错性、吞吐量以及可伸缩性。

Spark Streaming的核心是一种可拓展、容错的数据流系统,它采用RDD批量模式(即批量处理数据)并加快处理速度。同时它又有点过于简单,基本上Spark Streaming可以以小批量或批次间隔(从500毫秒到更大的间隔窗口)运行。

Spark Streaming接受输入数据流,并在内部将数据流分成多个较小的batch(batch 大小取决于batch的间隔)。Spark引擎将这些输入数据的batch处理后,生成处理过数据的batch结果集。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年11月06日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
消息队列 CMQ
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档