腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
的
数据
流上
的
setNumberOfWorkerHarnessThreads
等价物
?
、
、
、
我有一个严格
的
I/O限制(Java)光束管道,在Google Cloud Dataflow上,我使用
数据
流光束选项"
setNumberOfWorkerHarnessThreads
( 16 );“在每个虚拟我正在尝试将相同
的
管道移植到
Spark
上运行,但我在
Spark
上找不到相同
的
选项。我尝试过自己
的
线程化,但这似乎在SparkRunner上造成了问题,因为DoFn
的
ProcessElement部分会返回,但稍后在线
浏览 12
提问于2021-05-05
得票数 0
1
回答
我可以在单个apache beam代码中使用多个Runner吗?
、
、
、
我是新来
的
阿帕奇光束。到目前为止,我
的
理解是,apache beam只不过是ETL处理
的
工具。Runner可以被称为CPU、内存和存储
的
集合。我
的
问题是,我可以在单束python代码中使用两种或更多类型
的
runner吗? 例如,一个runner用于
数据
流,另一个用于
spark
,第三个用于directrunner,像这样?
浏览 29
提问于2020-06-29
得票数 1
1
回答
星火流-> DStream.checkpoint与SparkStreaming.checkpoint
、
我有
Spark
1.4流应用程序,它从Kafka读取
数据
,使用状态转换,并有15秒
的
批处理间隔。所以我
的
问题是: 如果我只在星火
流上
下文上设置检查点会发生什么?我想DStreams每批间隔都会被检查?如果我同时设置
流上
下文上
的
检查点以及从Kafka读取<em
浏览 2
提问于2016-06-09
得票数 2
回答已采纳
1
回答
如何在Google Dataproc上安排
Spark
作业?
、
我想使用Dataproc在Google Cloud上创建一个摄取/聚合流程,在此之前,我每天/小时都希望在收集
的
数据
上运行
Spark
作业。 有没有办法安排
Spark
作业?或者基于例如到达
流上
的
任何新
的
数据
事件来制作该触发器?
浏览 23
提问于2020-08-24
得票数 2
回答已采纳
4
回答
KStreams +火花流+机器学习
、
、
、
、
我正在做一个在
数据
流上
运行机器学习算法
的
POC。
Spark
Streaming -->聚合多个表中
的
数据
-->在
数据
流上
运行MLLib -->产生输出。我
的
想法是持续训练测试
数据
,而不是批量训练。
浏览 2
提问于2016-12-14
得票数 9
1
回答
Spark
上下文和
流上
下文
的
组合
、
我想在
流上
下文停止后执行一些批处理计算。(strContext.stop(true,true) )有人能提供一个流式处理后批量计算
的
例子吗?
浏览 1
提问于2016-06-13
得票数 0
2
回答
pyspark流媒体是否适合机器学习/科学计算?
、
、
、
我是
spark
的
新手,不得不写一个流媒体应用程序,它必须执行一些任务,比如快速傅立叶变换和一些机器学习
的
东西,比如使用svms进行分类/回归等。我想在pyspark中做到这一点,因为python有各种各样
的
模块,比如numpy,scikit-learn等等。我
的
问题是,在流媒体应用程序中可以做这样
的
事情吗?据我所知,
spark
使用dstream。这些流是否可以转换为numpy数组之类
的
内容,或者可以作为python函数
的
输入
浏览 0
提问于2017-09-25
得票数 0
1
回答
观点:从
Spark
streaming或结构化streaming任务中查询
数据
库
、
、
、
我们有一个
Spark
streaming用例,其中我们需要从摄取
的
事件(在Kafka中)计算一些指标,但计算需要额外
的
元
数据
,而这些元
数据
并不存在于事件中。我能想到
的
最明显
的
设计模式是从
spark
executor任务对元
数据
表(在master DB上)进行点查询,并在每个事件
的
处理过程中使用这些元
数据
信息。另一个想法是在将事件发送到Kafka之前,在单独
的
流水线中“丰富”这些事件
浏览 6
提问于2019-10-26
得票数 0
1
回答
Spark
Structured Streaming -无需重新读取
数据
的
多个聚合
、
我正在研究将Apache
Spark
用于一个应用程序。我对使用临时视图和完整SQL查询
的
结构化流模式特别感兴趣(为了简单和低延迟)。应用程序将需要在单个输入
数据
流上
运行多个(数十个,可能数百个)查询。有没有办法避免
Spark
重复读取每个查询
的
输入?
浏览 27
提问于2021-01-20
得票数 0
回答已采纳
2
回答
使用静态训练
数据
初始化StreamingKmeans模型
、
、
、
我可以使用训练
数据
集构建
Spark
Kmeans模型。我想让我
的
模型适应新
的
数据
,所以
Spark
StreamingKmeans对我来说似乎很棒。然而,似乎星火
的
StreamingKmeans只能在
数据
流上
进行训练。没有办法用默认
的
kmeans模型初始化它,在一些静态训练
数据
上训练,然后随着时间
的
推移用新
的
流式输入
数据
训练模型。是否有一种方法可以
浏览 13
提问于2016-07-25
得票数 0
回答已采纳
2
回答
如何在
Spark
Structured Streaming中读取Kafka和查询外部存储,如Cassandra?
、
如何在
Spark
Structured Streaming中读取Kafka和查询外部存储,如Cassandra?我从Kafka获得消息流,我想对它应用Map操作,对于每个键,我想查询像Cassandra这样
的
数据
存储,并获得该键
的
更多信息,并在
流上
应用进一步
的
操作。我如何使用
Spark
Structured Streaming 2.2.0来做到这一点?
浏览 2
提问于2017-09-07
得票数 1
2
回答
排列星河
数据
集列
、
、
、
我正在使用
Spark
2.3.1
的
结构化流API。是否有可能在火花流
数据
的
列中对值进行排序?我尝试使用下面的代码,然后在异常消息之后意识到
流上
下文不可能遍历整个窗口。.withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) org.apache.
spark
.sql.AnalysisException:流
数据
框架/
数据
浏览 0
提问于2018-07-06
得票数 4
回答已采纳
2
回答
SparkSession和SparkContext有什么区别?
、
也就是说,Sparksession有内部
的
sparkcontext和conf。
浏览 0
提问于2018-03-30
得票数 16
1
回答
h2o +r+流集成
、
我试图用R连接到闪闪发光
的
水,并分析我在H20
流上
的
数据
帧。我可以使用sparkly和sparklingR包从R连接到
Spark
实例,并生成一些H20
数据
。请建议我如何使用与
spark
_connect创建
的
相同
的
火花上下文来访问流。
浏览 1
提问于2017-05-09
得票数 0
2
回答
风暴与火花
、
我想检查一下,看看从暴风闪电中调用
Spark
代码是不是一个好主意。我们在Storm中有一个基于流
的
系统。因此,根据消息,我们希望这样做ML,我们正在考虑使用
Spark
来实现。
浏览 0
提问于2015-05-01
得票数 0
1
回答
如何通过
spark
streaming处理多个.gz文件?
我一直在尝试通过火花流从hadoop文件系统中读取多个.gz文件。有可能做到这一点吗?如果是,你能给我一个解决方案吗?
浏览 1
提问于2016-12-26
得票数 0
0
回答
在
spark
streaming scala中应用聚合函数
、
、
、
我需要在具有apache
spark
streaming (无APACHE
SPARK
STREAMING SQL)
的
数据
流上
应用聚合函数。在我
的
例子中,我有一个kafka生产者,它以JSON格式发送消息。
浏览 3
提问于2017-06-15
得票数 0
2
回答
spark
streaming中
的
缓存是否提高了性能
、
因此,我在kafka流中
的
同一rdd上执行多个操作。缓存RDD会提高性能吗?
浏览 1
提问于2015-05-15
得票数 5
2
回答
火花流持久表更新
、
、
、
我有一个星星之火
的
结构化流应用程序(听kafka),它也是从s3中
的
一个持久表中读取
的
,我正在尝试让每个微批检查表
的
更新。`s3n://myFolder/`")
spark
.catalog.refreshTable("myTable!")
spark
浏览 0
提问于2018-05-09
得票数 3
回答已采纳
1
回答
创建火花
流上
下文后将RDMS
数据
缓存在
spark
中
、
、
、
、
我们使用火花流从卡夫卡获得
数据
使用createDirectStream。 在同一个程序中,我连接到MYSQL,从
数据
库中获取一些
数据
。现在,我想使用
spark
缓存这个结果。这里
的
问题是,我在一开始就创建了一个星火
流上
下文,现在为了缓存这个MYSQL
数据
,我必须将其转换为一个RDD,这个RDD只有在
spark
上下文
的
帮助下才能实现,不幸
的
是,我不能创建
spark
上下文(因为已经根据
spark<
浏览 6
提问于2016-04-08
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据技术,Spark详细介绍,Spark和Hadoop的区别
走进大数据 MapReduce于spark的对比
Spark中的数据缓存和数据持久化机制。
由Decimal操作计算引发的Spark数据丢失问题
大数据Hadoop、Hive及Spark的内在联系
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券