使用Direct Kafka API运行spark流媒体应用所需的最佳资源是什么？

使用Direct Kafka API运行spark流媒体应用所需的最佳资源是Kafka集群和Spark集群。

Kafka是一种高吞吐量、可持久化、分布式发布订阅消息系统，常用于流媒体应用中的数据传输和处理。Kafka集群由多个Kafka broker组成，每个broker负责存储和处理消息。在流媒体应用中，Kafka集群扮演着消息队列的角色，负责接收和分发实时数据。

Spark是一个快速、通用的大数据处理引擎，支持流式数据处理。Spark集群由多个Spark节点组成，每个节点负责执行Spark应用程序的任务。在流媒体应用中，Spark集群使用Direct Kafka API连接到Kafka集群，实时消费和处理Kafka中的数据。

使用Direct Kafka API运行spark流媒体应用所需的最佳资源包括：

Kafka集群：建议使用腾讯云的消息队列 CKafka，它是腾讯云提供的高可用、高可靠、高性能的分布式消息队列服务。CKafka支持海量消息的存储和传输，具有低延迟和高吞吐量的特点。您可以在腾讯云官网了解更多关于CKafka的信息：CKafka产品介绍
Spark集群：建议使用腾讯云的弹性MapReduce服务EMR，它是腾讯云提供的大数据处理和分析服务。EMR支持Spark集群的快速创建和自动伸缩，可以根据实际需求灵活调整集群规模。您可以在腾讯云官网了解更多关于EMR的信息：EMR产品介绍

通过使用腾讯云的CKafka和EMR，您可以构建一个稳定、高效的流媒体应用环境，实现实时数据的传输和处理。

页面内容是否对你有帮助？

有帮助

没帮助

为什么不单独使用spark-streaming

real-time、apache-kafka、spark-streaming、lambda-architecture

我没有太多使用Kafka/ Spark-Streaming的经验，但我读过很多关于组合在为分析/仪表板构建实时系统方面有多棒的文章。有人能给我解释一下为什么spark-streaming不能单独完成吗？换句话说，为什么Kafka在数据源和spark-streaming之间？谢谢

浏览 1提问于2016-01-11得票数 1

1回答

我需要有一个数据库，不知道腾讯云有没有这样的服务？

数据库、sql

我需要有一个数据库，超过50T的，像网盘一样，可以存储。因为经常要传输超过单个30G以上的文件，腾讯云能解决吗

浏览 161提问于2021-05-08

4回答

TBDS是否支持实时数据接入、国产数据库接入？

官方文档、机器学习、数据库、大数据处理套件 TBDS、工业物联

腾讯云文档中没有关于TBDS数据接入组件的说明，TBDS都支持哪些数据来源？是否支持工业物联网设备实时数据采集？是否支持如达梦、翰高等国产数据库？另外机器学习平台DI-X也没有相关文档支持。 [附加信息]

浏览 673提问于2018-04-08

1回答

使用带有Spark的Kafka比仅使用Spark的优点

apache-spark、apache-kafka、stream-processing

Kafka是很常见的。所以很多公司都在使用它。我完全理解Kafka和Spark是如何工作的，我对他们都很有经验。我不理解的是用例。为什么你要把Kafka和Spark一起使用，而不仅仅是Spark呢？在我看来，Kafka的主要用途是作为ETL管道中的中转区，用于实时(流)数据。我假设有一个数据源集群，数据最初存储在其中。例如，它可以是Vertica、Cassandra、Hadoop等。然后是一个处理集群，它从数据源集群读取数据，并将其写入分布式Kafka日志，这基本上是一个登台数据集群。然后是另一个处理集群- Spark集群，它从Kafka读取数据，对数据进行一些转换和聚合，并将其写入最

浏览 3提问于2019-06-17得票数 3

1回答

Kafka 1.0 Streaming API: partitions消息消费延迟

java、apache-kafka、apache-kafka-streams

最近，我将我们的流媒体应用程序从spark-streaming 2.1切换到使用kafka-streaming新API (1.0)和kafka broker服务器0.11.0.0 我已经实现了自己的Processor类，并且在process方法中，我只打印消息内容。我有一个由3台机器组成的kafka集群，我挂在上面的主题有300个分区。我在一台内存为32 GB、内核为8核的机器上运行了100线程的流媒体应用程序。我的问题是，在某些情况下，我在消息到达kafka主题/分区时就收到了消息，而在其他情况下，我在消息到达主题后10-15分钟才收到消息，不知道为什么！我使用下面的命令行来跟踪流媒

浏览 17提问于2018-02-14得票数 1

回答已采纳

1回答

带有单个执行器的发布-订阅-通道

java、spring-integration、publish-subscribe

我有一个集成流程绑定到Kafka的云流输入通道。然后使用singleThreadExecutor将消息发送到publishSubscribe通道。从那里，它们转到一个处理它们的订阅者。处理可能需要一些时间。据我所知，处理是在singleThreadExecutor上完成的。而云流媒体的线程被释放，以便从Kafka获取另一条消息。如果新消息到达，但处理线程仍然繁忙，会发生什么情况？云流的线程会等待还是消息会被丢弃？如果它会等多久呢？是否有一些默认的超时值？我有一个猜测，我们在这种情况下丢失了一些消息，因为我可以在Kafka中看到消息，但在DB中没有相应的更新…… 但大多数消息都按预期进

浏览 0提问于2020-07-23得票数 0

1回答

使用Direct Kafka API运行spark流媒体应用所需的最佳资源是什么？

python、pyspark、apache-kafka、spark-streaming

我使用直接的Kafka API以1分钟的批处理间隔运行我的spark流媒体应用程序，并在我的应用程序代码中使用Pandas和Pyspark。下面是我的集群配置:3个数据节点，每个数据节点具有8核、12 my的容量。我已经提供了如下参数的spark-submit作业， --master yarn --deploy-mode cluster --executor-memory 2G --total-executor-cores 4 --num-executors 11 但是我的SPARK UI显示我的活动批处理处于队列状态， config("spark.streaming.backp

浏览 14提问于2017-08-28得票数 1

1回答

如何在AWS EMR中停止长时间运行的spark流步骤

amazon-web-services、apache-spark、spark-streaming、emr、amazon-emr

我使用AWS EMR进行spark流媒体。我在EMR中添加了一个从Kinesis流读取数据的步骤。我需要的是一种方法来停止这个步骤并添加一个新的步骤。现在，我从Spark驱动程序中产生一个线程，监听SQS队列中的消息，并在收到消息时调用sparkContext.stop()。我使用Chef来实现部署自动化。因此，当有新的工件时，一条消息被放入SQS，EMR读取它并停止该步骤。Chef然后使用EMR API添加一个新步骤。我的问题是，这是在EMR中停止长时间运行的流作业的正确方法吗？如果spark部署在独立的集群上，而不是EMR上，这将如何处理？

浏览 10提问于2016-09-13得票数 1

1回答

哪些文件系统可用于检查点设置

apache-spark、hdfs、spark-streaming、checkpointing

文档说，任何与Hadoop API兼容的文件系统(如HDFS、S3 )都可以用作检查点目录。我的问题是，除了HDFS和S3之外，使用Kafka和Cassandra的spark流媒体应用程序还有什么其他实用的替代方案。谢谢

浏览 2提问于2016-01-07得票数 1

2回答

Kafka代替Zookeeper进行集群管理

apache-kafka、apache-zookeeper

我正在编写一个基于Kafka的集群应用程序--它专门使用Kafka进行进程间通信和协调。我可以使用Zookeeper来管理我的集群--但是使用Kafka主题来管理集群并不是很困难。我想得越多，除了出于历史原因，卡夫卡似乎可以放弃Zookeeper，只使用基于主题的解决方案例如，在Kafka中可能会有一个或多个特殊主题，您可以在其中发布当前在Zookeeper中跟踪的所有相同数据。Broker、Topics、Partitions、Leaders等--似乎可以通过Kafka主题像通过Zookeeper一样轻松地跟踪这些内容。我知道在Kafka 0.9.0中有一些远离Zookeeper的动向，更

浏览 2提问于2016-03-08得票数 2

2回答

对时间序列数据流执行查询

cassandra、apache-kafka、spark-streaming、iot

我正在尝试为我的流媒体应用程序设计一个架构，并为我的工作选择合适的工具。这是它目前的工作方式：来自“应用程序生产者”部分的消息具有(address_of_sensor, timestamp, content)元组的形式。在Kafka之前我已经实现了所有的功能，现在我在设计中遇到了主要的缺陷。在“火花流”部分，将合并的消息流转换为事件流。问题是大部分事件都是复合的-由多个消息组成，这些消息在不同的传感器上同时发生。我不能依靠“到达卡夫卡的时间”作为检测“同时性”的手段。所以在使用Spark提取消息之前，我必须以某种方式在Kafka中对消息进行排序。或者，更准确地说，在Kafka消息

浏览 0提问于2015-11-04得票数 2

1回答

Flink卡夫卡流相对于星火卡夫卡流的好处？卡夫卡流过弗林克？

apache-kafka、spark-streaming、apache-storm、apache-flink、apache-kafka-streams

在火花流中，我们设置了几乎实时的微批处理的批处理间隔。在Flink (DataStream)或Storm中，流是实时的，所以我想没有这样的批处理间隔的概念。在卡夫卡，消费者在拉，我想象星火使用批参数从卡夫卡经纪人提取消息，那么Flink和Storm是如何做到的呢？我设想Flink和Storm在一个快速循环中拉出Kafka消息形成实时流源，如果是这样的话，如果我将火花批处理间隔设置为100 as、50 as甚至更小，那么我们是否与Flink或Storm之间有显著差异？同时，在Spark中，如果流数据很大，批处理间隔太小，我们可能会遇到一种情况，即需要处理的数据很多，因此会发生OutOfMem

浏览 5提问于2016-10-24得票数 7

回答已采纳

6回答

Kafka对实时数据的主要优势是什么？

分布式、大数据

在我们的大数据时代，您的IT基础架构可能会受到各种来源数据涌入的影响。最重要的是，客户要求“实时”查看他们的数据，没有任何延迟时间，因此您的服务器需要快速处理和显示数据。Kafka是一个分布式流媒体平台，使公司能够创建实时数据源。Uber，Twitter，Airbnb，Yelp以及今天财富500强公司中超过30％的公司都在使用它。例如，通过集成各种数据，如喜欢，页面点击，搜索，订单，购物车和库存，Kafka可以帮助实时将数据提供给预测分析引擎，以分析客户行为。那么 Kafka有哪些好处，您的公司为什么要采用它，以及您的IT团队成功实施它需要哪些技能？

浏览 7032提问于2018-09-14

1回答

为什么KafkaUtils.createDirectStream要抛出一个NoSuchMethodError？

java、apache-spark、apache-kafka

HashSet<String> topicsSet = new HashSet<String>(Arrays.asList(config.getKafkaTopics().split(","))); HashMap<String, String> kafkaParams = new HashMap<String, String>(); kafkaParams.put("metadata.broker.list", config.getKafkaBrokers()); // Create direct KAFKA

浏览 3提问于2016-04-08得票数 2

回答已采纳

1回答

Apache产品集群设置问题

apache-kafka、apache-kafka-connect、debezium

我们一直试图在AWS机器上建立一个生产级Kafka集群，但到目前为止，我们一直没有成功。 Kafka版本: 2.1.0 机器： 5 r5.xlarge machines for 5 Kafka brokers. 3 t2.medium zookeeper nodes 1 t2.medium node for schema-registry and related tools. (a Single instance of each) 1 m5.xlarge machine for Debezium. 默认代理配置： num.partitions=15 min.insync.replicas=1

浏览 0提问于2018-12-13得票数 5

2回答

用于NRT数据应用的Google

apache-spark、apache-kafka、google-cloud-platform、google-cloud-dataflow、bigdata

我正在评估Kafka/Spark/HDFS，用于开发NRT (子秒级) java应用程序，该应用程序接收来自外部网关的数据，并将其发布到桌面/移动客户端(使用者)，用于各种主题。同时，数据将通过用于分析和ML的流和批处理(持久)管道提供。例如，流量将是..。独立的TCP客户端从外部TCP服务器读取流数据。客户端根据数据包(Kafka)发布不同主题的数据，并将其传递给流式分析管道(Spark)。桌面/移动用户应用程序订阅各种主题并接收NRT数据事件(Kafka) 消费者还从流式/批处理管道(Spark)接收分析。必须对Kafka集群进行管理、配置和监视，以获得最

浏览 2提问于2016-02-16得票数 0

9回答

腾讯云时序数据库 CTSDB VS 传统时序数据库？

数据库、sql

很多公司已经开始持续收集、分析数据，用于异常处理、趋势预测、精准营销、风险控制等场景，希望利用数据的潜在价值，提高公司盈利能力和竞争力。那么腾讯云时序数据库 CTSDB VS 传统时序数据库，腾讯云时序数据库有没有什么进步？

浏览 1709提问于2018-09-26

1回答

在内存处理中使用Apache梁

go、apache-beam

我正在运行自己的GRPC服务器，收集来自各种数据源的事件。服务器是以Go开发的，所有事件源都以预定义的格式将事件作为protobuf消息发送。我想要做的是在内存中处理所有这些事件。我翻阅了Apache的文档，却找不到一个能做我想做的事情的样本。我不打算使用Kafka，Flink或任何其他流媒体平台，只需要处理内存中的消息并输出结果。有人能告诉我一个正确的方法来开始编写一个简单的流处理应用程序吗？

浏览 1提问于2020-08-11得票数 0

回答已采纳

2回答

无法使用火花连续流处理数据

apache-spark、pyspark、apache-kafka、spark-structured-streaming

我正在开发一个实时流应用程序，该应用程序可以从Kafka broker中轮询数据，并且我正在调整以前默认使用Spark结构化流的代码(带有微批处理)。但是，我不知道如何使用连续流而不是微批量流来获得类似的行为。这是一段可以工作的代码： query = df.writeStream \ .foreachBatch(foreach_batch_func) \ .start() 这就是我到目前为止对连续流的尝试： query = df \ .writeStream \ .foreach(example_func) \ .

浏览 1提问于2020-09-29得票数 5

1回答

卡夫卡与火花的整合

apache-spark

我想使用Apache和Spark流来设置一个流应用程序。Kafka运行在一个单独的unix机器版本0.9.0.1上，Sequv1.6.1是hadoop集群的一部分。我已经启动了动物园管理员和kafka服务器，并希望使用控制台生成器从日志文件中流到消息，并使用直接方法(没有接收者)使用火花流应用程序。我用python编写了代码，并使用以下命令执行： spark-submit --jars spark-streaming-kafka-assembly_2.10-1.6.1.jar streamingDirectKafka.py 出现以下错误： /opt/mapr/spark/spark-1.6.

浏览 6提问于2016-08-24得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Direct Kafka API运行spark流媒体应用所需的最佳资源是什么？

相关·内容

为什么不单独使用spark-streaming

我需要有一个数据库，不知道腾讯云有没有这样的服务？

TBDS是否支持实时数据接入、国产数据库接入？

使用带有Spark的Kafka比仅使用Spark的优点

Kafka 1.0 Streaming API: partitions消息消费延迟

带有单个执行器的发布-订阅-通道

使用Direct Kafka API运行spark流媒体应用所需的最佳资源是什么？

如何在AWS EMR中停止长时间运行的spark流步骤

哪些文件系统可用于检查点设置

Kafka代替Zookeeper进行集群管理

对时间序列数据流执行查询

Flink卡夫卡流相对于星火卡夫卡流的好处？卡夫卡流过弗林克？

Kafka对实时数据的主要优势是什么？

为什么KafkaUtils.createDirectStream要抛出一个NoSuchMethodError？

Apache产品集群设置问题

用于NRT数据应用的Google

腾讯云时序数据库 CTSDB VS 传统时序数据库？

在内存处理中使用Apache梁

无法使用火花连续流处理数据

卡夫卡与火花的整合

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐