腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Kafka-Spark
Streaming
API
处理
流
数据
时
出现
重复
java
、
apache-kafka
、
spark-streaming
、
offset
、
kafka-consumer-api
以下代码在
数据
处理
后工作并提交偏移量。但问题是,在下面的情况下,它正在
处理
重复
项:
使用
者作业正在运行,配置单元表有0条记录,当前偏移量为(FORMAT- fromOffest,untilOffset,Difference):512 5120 然后我生成了1000条记录,当它读取了34条记录但未提交
时
,我杀死了它512 546 34 我看到到此时,34个recs已经加载到Hive表中 接下来,我重新启动了应用程序。我看到它再次读取34条记录(而不是读取1000-34=76个recs),尽
浏览 18
提问于2019-02-05
得票数 1
2
回答
数据
流
API
-高可用性
amazon-web-services
、
amazon-ec2
、
high-availability
、
long-polling
、
streaming-analytics
在我的亚马逊网络服务的架构中,我有一个运行在EC2实例上的服务,它调用Twitter
streaming
API
来进行
数据
摄取,即实时tweet的摄取。我称这个服务为TwitterClient。Twitter
API
使用
一种基于HTTP协议的长轮询来传递
流
数据
。然后,TwitterClient将实时tweet传递到后端(
使用
Kinesis
数据
流
)进行
处理
。 我面临的问题是-并行运行多个EC2实例将导
浏览 20
提问于2021-01-08
得票数 0
1
回答
结构化
流
- Grafana中的度量
apache-spark
、
apache-spark-sql
、
graphite
、
spark-structured-streaming
我
使用
结构化
流
从Kafka读取
数据
,并创建各种聚合度量。我已经
使用
metrics.properties启用了石墨接收器。我已经看到应用程序在较早的星火版本有
流
相关的指标。我没有看到与结构化
流
相关的
流
标准。我做错了什么?SparkSession.builder().config
浏览 4
提问于2017-12-19
得票数 12
2
回答
如何删除
流
数据
中的
重复
项?
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我正在
使用
spark-sql 2.4.1结构化
流
与kafka,java8。例如,我的
数据
集如下所示我需要找出基于ColA ColB ColC的副本,取其中基于ColDate的最新副本,并删除其余的。也就是说,从上面的
数据
结果应该是如何
使用
spark
streaming
来实现?也就是说,我将在
流
中获取
数据
,例如...不确定何时
出现
重复
,如果按照前面指定的逻辑
重复
,我需要删除记录
浏览 2
提问于2019-08-06
得票数 0
2
回答
kafka将引发java
api
流
问题
java
、
apache-spark
我想通过spark
streaming
对我从kafka收到的特定主题的
数据
进行实时
处理
。我无法
使用
由createStream函数返回的JavaPairReceiverInputDStream。wordCounts.print(); 类型JavaPairDStream中的方法映射(Function,R>)不适用于参数(new PairFunction(){}) SparkStreamingKafka.java /
Kafka-Spark
/src/com/sd
浏览 6
提问于2015-02-05
得票数 3
1
回答
实时时间表AngularJS
javascript
、
angularjs
、
sockets
、
web
我正在
使用
Twitter
流
API
。我的服务器从一个混凝土标签中获取tweet。为此,我
使用
IO套接字。客户端从套接字接收消息:socket.on('tweet', function(msg) { $scope.
streaming
.push(msg); <table class="table
浏览 5
提问于2017-09-06
得票数 2
回答已采纳
2
回答
使用
Flink同步的进程2
流
java
、
scala
、
apache-flink
、
flink-streaming
、
amazon-kinesis
我有两个
流
A和B。 我开始同时摄入A和B。
流
A只在每分钟的59秒获得一条记录。
流
B获取一分钟内的任何一秒的记录。 我希望
处理
两个
流
是同步的。示例:从
流
A在10:01:59之后,我将在10:02:59收到一条记录,直到10:02:59我也不想从
流
B读取任何内容。 这可以在Flink中实现吗?
浏览 48
提问于2021-01-21
得票数 0
2
回答
是什么原因导致我的星火
流
检查点不完整?
java
、
apache-spark
、
spark-streaming
我正在玩星火
流
API
,特别是测试检查点功能。但是,我发现在某些情况下,返回的检查站没有完成。下面的代码是在2.1.0版本(针对Scala2.11编译)下以local[2]模式运行的(尽管我在运行它
时
注意到了类似的现象): } catch (FileNotFoundException e) { }当我向该
流
添加一个新键并立即关闭该驱动程
浏览 0
提问于2016-12-29
得票数 2
回答已采纳
1
回答
显示Spark结构化
流
作业
使用
的事件数
apache-spark
、
spark-structured-streaming
我有2个线性火花结构化流式作业,从一个卡夫卡主题复制
数据
到另一个。 是否可以在Spark UI中发布/查看消费/产生的事件数量?
浏览 13
提问于2020-04-15
得票数 1
回答已采纳
2
回答
基于wholeTextFiles的火花
流
java
、
apache-spark
、
spark-streaming
我正在
使用
Spark2.0并尝试
使用
wholeTextFiles
API
来
流
文件。我的Spark程序正在成功地读取文件--文件夹中的第一批文件,但是我不能流到后面的一批文件。请让我知道如何在
使用
WholeTextFiles
API
时
流
文件。; jssc.start();火花
浏览 4
提问于2017-04-05
得票数 0
1
回答
停止google语音到文本
流
识别python中的客户端
python
、
google-cloud-speech
我
使用
谷歌语音文本
API
文本语音到文本。当我们到达is_final=True
时
,我试图终止此服务。types.StreamingRecognizeRequest(audio_content=message.chunk)我试过了:responses.cancel(),但是它
出现</e
浏览 2
提问于2018-11-04
得票数 1
2
回答
库
API
调用(NET和C++)中的奇怪行为
.net
、
c++-cli
我有一个第三方
API
。它只需将媒体流到给定的ip端口(从捕获设备读取媒体)。唯一的区别是,一个应用程序是Windows窗体应用程序,另一个应用程序不是..。PS:
API
是用C++编写的。我在NET中
使用
这个<
浏览 0
提问于2011-07-13
得票数 0
回答已采纳
1
回答
避免Apache Spark结构化
流
中的多窗口
重复
读取
java
、
apache-spark
、
apache-spark-sql
、
spark-streaming
、
spark-structured-streaming
我是Apache Spark Structured
Streaming
的新手,我正在做一个基本的POC。我的需求是构建一个规则引擎,它将从HDFS读取
数据
,HDFS接收来自多个源的连续
数据
流
。我需要根据此HDFS
数据
的可配置时间窗口运行不同的规则。例如,可能有一个规则需要在最后5分钟的
数据
上运行,而第二个规则将在最后7分钟的
数据
上运行。如果我创建两个
流
,一个是5分钟的频率,另一个是7分钟的频率,因为spark是一个内存引擎,那么有没有可能频率为7分钟的
浏览 31
提问于2021-09-16
得票数 1
2
回答
处理
Tweepy返回的420响应代码
python
、
twitter
、
error-handling
、
tweepy
、
twitter-streaming-api
每当用户登录到我的应用程序并进行搜索
时
,我就必须启动一个
流
API
来获取他所需要的
数据
。这里是我的
流
API
类import json # Called initially to connect to the
Streaming
API
浏览 0
提问于2018-05-11
得票数 0
1
回答
从
数据
流
插入BigQuery
流
-无结果
google-bigquery
、
google-cloud-dataflow
、
google-cloud-pubsublite
我有一个
数据
流管道,它从PubSub Lite读取消息,并将
数据
流式传输到BigQuery表中。该表按天进行分区。
使用
以下命令查询表
时
:BigQuery但是,当实际运行查询
时
,我没有得到任何结果。我的管道已经运行了整整一周,在过去的两天里我得到了同样的结果。然而,对于2021-10-11和之前的几天,我看到了实际的结果
浏览 4
提问于2021-10-14
得票数 2
3
回答
使用
Spark
Streaming
时限制Kafka批量大小
apache-spark
、
apache-kafka
、
spark-streaming
、
kafka-consumer-api
是否可以限制Kafka消费者返回Spark
Streaming
的批量大小? 我之所以问这个问题,是因为我得到的第一批记录有上亿条记录,需要很长时间才能
处理
和设置检查点。
浏览 0
提问于2016-10-11
得票数 18
回答已采纳
3
回答
了解Python HTTP
流
python
、
http
、
streaming
、
python-requests
、
chunked-encoding
我正在努力
使用
Python和Requests访问流式
API
。请求文档显示了两件有趣的事情:
使用
生成器/迭代器来
处理</em
浏览 4
提问于2013-07-24
得票数 6
回答已采纳
2
回答
对于
数据
流
,BigqueryIO.write()和bigquery.insertAll()方法哪个更好
google-cloud-platform
、
google-bigquery
、
google-cloud-dataflow
、
dataflow
我正在开发java代码,以便从GCS读取记录并插入到BQ表中,从成本和性能的角度来看,哪个BigqueryIO.write()或bigquery.insertAll()方法更好。
浏览 0
提问于2019-03-05
得票数 1
1
回答
StreamingContext没有构造函数
scala
、
apache-spark
、
spark-streaming
我正在
处理
非常基本的星火
流
Scala代码。代码如下所示import org.apache.spark.
streaming
.StreamingContext ssc.awaitTerminationOrTimeout(batchIntervalSeconds * 5 * 1000) } 但在
使用
maven构建代码
时
出现</em
浏览 0
提问于2018-12-01
得票数 0
1
回答
推特
流
API
OAuth -分块响应
php
、
twitter
、
streaming
、
chunked-encoding
我正在
使用
Phirehose PHP Twitter
Streaming
API
,并做了一些修改,以便它也能与OAuth一起工作。然而,当我访问Twitter
流
API
时
,我得到一个"Transfer-Encoding: Chunked“报头作为答案,这是通过管道传入的: Content-Type: application/jsonTransfer-Encodinglong tweet message in JSON format - skipped here as i
浏览 0
提问于2011-01-03
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming与Kafka 整合的改进
Spark Streaming 2.2.0 Example
Spark Streaming+Kafka的offset管理方法
Kafka 遇上 Spark Streaming
Heron:来自Twitter的新一代流处理引擎应用篇
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券