开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

spark structured streaming和batch的接收器相同吗？

Spark Structured Streaming和批处理的接收器是不同的。

Spark Structured Streaming是一种基于Spark SQL引擎的流式处理框架，它允许以类似于批处理的方式处理连续的数据流。它提供了一种高级API，可以将流数据视为连续的表，并使用SQL查询、DataFrame和Dataset API进行处理。Structured Streaming支持事件时间和处理时间，并提供了容错和Exactly-Once语义。

批处理是一种离线处理方式，它将数据分成一批一批的进行处理。批处理的接收器通常是从文件系统、数据库或其他数据源中读取一批数据，并将其加载到Spark中进行处理。批处理的特点是数据有限且静态，处理过程是离线的。

因此，Spark Structured Streaming和批处理的接收器是不同的。Structured Streaming接收器可以从各种数据源（如Kafka、Flume、HDFS等）读取连续的数据流，而批处理接收器通常从静态的数据源（如文件系统、数据库等）读取一批数据。

相关搜索:LocalTableScan在Spark Structured Streaming中的作用是什么？mapGroupsWithState的Spark structured streaming状态存储在哪里？Spark streaming中卡桑德拉接收器的ForeachWriter实现 Spark Structured Streaming -无需重新读取数据的多个聚合 Spark Structured Streaming 2.3.0中的水印 Spark Structured Streaming :支持mapPartitions吗？Spark Structured Streaming JAVA中两个不同列数据集的合并 Spark Structured streaming UI的自定义选项卡 Spark Structured Streaming with Kafka source，在查询运行时更改主题分区的数量 Spark Structured streaming: JDBC接收器中的主键

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

用Spark进行实时流计算

Spark Streaming是Spark最初的流处理框架，使用了微批的形式来进行流处理。

02

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

09

SparkStreaming学习笔记

（*）Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高级函数（如map，reduce，join和window）开发的复杂算法进行流数据处理。最后，处理后的数据可以被推送到文件系统，数据库和实时仪表板。而且，您还可以在数据流上应用Spark提供的机器学习和图处理算法。

02

Structured Streaming | Apache Spark中处理实时数据的声明式API

随着实时数据的日渐普及，企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的API基于Spark Streaming的经验。Structured Streaming在两点上不同于其他的Streaming API比如Google DataFlow。第一，不同于要求用户构造物理执行计划的API，Structured Streaming是一个基于静态关系查询（使用SQL或DataFrames表示）的完全自动递增的声明性API。第二，Structured Streaming旨在支持端到端实时的应用，将流处理与批处理以及交互式分析结合起来。我们发现，在实践中这种结合通常是关键的挑战。Structured Streaming的性能是Apache Flink的2倍，是Apacha Kafka 的90倍，这源于它使用的是Spark SQL的代码生成引擎。它也提供了丰富的操作特性，如回滚、代码更新、混合流\批处理执行。我们通过实际数据库上百个生产部署的案例来描述系统的设计和使用，其中最大的每个月处理超过1PB的数据。

02

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 [Release Note](http://spark.apache.org/releases/spark-release-2-4-0.html) 里面果然一个 Spark Streaming 相关的 ticket 都没有。相比之下，Structured Streaming 有将近十个 ticket 说明。所以各位同学，是时候舍弃 Spark Streaming 转向 Structured Streaming 了，当然理由并不止于此。我们这篇文章就来分析一下 Spark Streaming 的不足，以及Structured Streaming 的设计初衷和思想是怎么样的。文章主要参考今年（2018 年）sigmod 上面的这篇论文：Structured Streaming: A Declarative API for Real-Time

02

Structured Streaming 编程指南

Structured Streaming 是一个基于 Spark SQL 引擎的、可扩展的且支持容错的流处理引擎。你可以像表达静态数据上的批处理计算一样表达流计算。Spark SQL 引擎将随着流式数据的持续到达而持续运行，并不断更新结果。你可以在Scala，Java，Python或R中使用 Dataset/DataFrame API 来表示流聚合，事件时间窗口（event-time windows），流到批处理连接（stream-to-batch joins）等。计算在相同的优化的 Spark SQL 引擎上执行。最后，通过 checkpoint 和 WAL，系统确保端到端的 exactly-once。简而言之，Structured Streaming 提供了快速、可扩展的、容错的、端到端 exactly-once 的流处理。

02

Spark Streaming 2.2.0 Input DStreams和Receivers

输入 DStreams 表示从 source 中获取输入数据流的 DStreams。在入门示例中，lines 表示输入DStream，它代表从netcat服务器获取的数据流。每一个输入DStream(除 file stream)都与一个 Receiver (接收器)相关联，接收器从 source 中获取数据，并将数据存入 Spark 内存中来进行处理。输入 DStreams 表示从数据源获取的原始数据流。Spark Streaming 提供了两类内置的流源（streaming sources）：

02

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

Spark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象，如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。另外 Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。

01

Spark vs. Flink -- 核心技术点

Apache Spark 是一个统一的、快速的分布式计算引擎，能够同时支持批处理与流计算，充分利用内存做并行计算，官方给出Spark内存计算的速度比MapReduce快100倍。因此可以说作为当下最流行的计算框架，Spark已经足够优秀了。

03

SparkStreaming入门

黄文辉同学第二篇，请大家支持！ 1.SparkStreaming简介 Spark Streaming属于核心Spark API的扩展,支持实时数据流的可扩展、高吞吐、容错的流处理。可以接受来自Kafka、Flume、ZeroMQ、Kinesis、Twitter或TCP套接字的数据源，也可以使用map、reduce、join、window等高级函数表示的复杂算法进行处理。最后，处理的结果数据可以输出到hdfs，redis，数据库（如hbase）等。 2.工作原理 Spark Streaming使用“微批次”

04

Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

本文介绍了 Structured Streaming 是如何逐步从 Apache Spark 生态系统中发展起来的，以及其设计理念和实现方式。本文还介绍了 Structured Streaming 在实际应用中的优势，包括与批处理计算的关系、与 Apache Kafka 的集成、以及在高吞吐和低延迟场景下的性能表现。此外，本文还提供了若干实例，以展示 Structured Streaming 在各种应用场景中的实际效果。

06

Spark背景知识学习

这是来自Spark官网的描述(http://spark.apache.org/)。我们可以看到Spark是对大规模数据处理的一个统一分析引擎。有一种说法是：Spark给Hadoop这头大象插上了翅膀，足以看出Spark处理速度之快。Spark官网中，概括了Spark的几个特点：

01

Spark Streaming与Kafka如何保证数据零丢失

Spark Streaming 是一种构建在 Spark 上的实时计算框架，它扩展了 Spark 处理大规模流式数据的能力。Spark Streaming 的优势在于：

03

Structured Streaming实现超低延迟

浪院长，最近忙死了，写文章的时间都没了。但是，都说时间就像海绵里的水，挤挤就有了。所以，今晚十点半开始整理这篇Structured streaming 相关的文章。

02

Spark Streaming官方编程指南

Spark Streaming（下称streaming）是Spark core的拓展，一个易扩展、高吞吐、高容错的流式数据处理系统。

02

那些年我们用过的流计算框架

数据时代，从数据中获取业务需要的信息才能创造价值，这类工作就需要计算框架来完成。传统的数据处理流程中，总是先收集数据，然后将数据放到DB中。当人们需要的时候通过DB对数据做query，得到答案或进行相关的处理。这样看起来虽然非常合理，但是结果却非常紧凑，尤其是在一些实时搜索应用环境中的某些具体问题，类似于MapReduce方式的离线处理并不能很好地解决。基于此，一种新的数据计算结构---流计算方式出现了，它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析，捕捉到可能有用的信息，并把结果发送

08

Spark Streaming——Spark第一代实时计算引擎

虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足部分的实时计算场景的，SparkStreaming资料较多，这里也做一个简单介绍。

01

Spark Streaming 容错的改进与零数据丢失

实时流处理系统必须可以7*24小时工作，因此它需要具备从各种系统故障中恢复过来的能力。最开始，Spark Streaming就支持从driver和worker故障中恢复。然而，从有些数据源导入数据时可能存在故障恢复以后丢失数据的情况。在Spark 1.2版本中，我们已经在Spark Streaming中对预写日志（也被称为journaling）作了初步支持，改进了恢复机制，使得更多数据源零数据丢失有了可靠的保证。本文将详细地描述这个特性的工作机制，以及开发者如何在Spark Streaming应用中使用这个机制。

02

spark君第一篇图文讲解Delta源码和实践的文章

Delta 原本是在 Databricks Runtime 里面的一个增值功能，在 spark + AI Summit 2019 大会上，官方以 Apache License 2.0 协议开源。

01

听程序员界郭德纲怎么“摆”大数据处理

大规模数据处理技术如果从MapReduce论文算起，已经前后跨越了十六年。我们先沿着时间线看一下大规模数据处理的重要技术和它们产生的年代。后面从MapReduce到Spark、Flink、Beam的演进特性来看大规模数据处理计算引擎应该具备什么样的能力。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭