腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Apache
Spark
中
的
自动
批处理
apache-spark
、
pyspark
在我有很多工作要处理但集群很小
的
情况下,我可以让
Apache
spark
以某种方式为我平滑工作,这样集群就不会因为内存不足而爆炸吗? 在这里,大量工作意味着比可用内存总量更多。在这种情况下,这将是有价值
的
,例如,在运行我
的
调度
批处理
作业时,由于某种原因,我们有不寻常
的
数据量要处理。这种情况应该很少见,但仍有可能发生。我不想仅仅因为这些罕见
的
情况来评估我
的
集群。对于这些罕见
的
情况,我如何才能让
Apache</e
浏览 16
提问于2020-04-13
得票数 0
回答已采纳
2
回答
避免对
spark
微批进行排队
apache-spark
、
spark-streaming
我已经创建了
spark
应用程序,它从
Apache
flume获取输入数据。我将
spark
批处理
间隔设置为4分钟,这样
spark
将每隔4分钟处理一次数据。但是我有一些昂贵
的
spark
批处理
,这需要相当多
的
时间(比如30分钟),所以在这段时间内,大约7个
spark
批处理
将在队列中等待,一旦昂贵
的
批处理
执行完成,它将一个接一个地开始处理。通过这种方式,我
的</e
浏览 1
提问于2019-09-28
得票数 3
1
回答
Apache
Spark
和
Apache
Apex有什么不同?
apache-spark
、
machine-learning
、
pyspark
、
stream-processing
、
apache-apex
-是一个开源
的
企业级统一流和
批处理
平台。它用于GE Predix平台
的
物联网。这两个平台之间
的
主要区别是什么?从数据科学
的
角度来看,它与
Spark
有什么不同?提供像
Spark
MLlib一样
的
功能吗?如果我们必须在
Apache
to上构建可伸缩
的
ML模型,该如何做&使用哪种语言?数据科学家将不得不学习Java来构建可伸缩
的
ML模型吗?它有像pyspark那样
的
pyt
浏览 109
提问于2016-02-23
得票数 16
1
回答
Spark
-Streaming挂起,kafka最早开始偏移(Kafka 2,
spark
2.4.3)
apache-spark
、
apache-kafka
、
kafka-consumer-api
、
spark-structured-streaming
我对
Spark
-Streaming和Kafka有意见。在运行示例程序从Kafka主题消费并将微批结果输出到终端时,当我设置选项时,我
的
作业似乎挂起了: df.option("startingOffsets", "earliest") 从最新
的
偏移量开始工作很好,结果随着每个微批次
的
流过而打印到终端。我在想,也许这是一个资源问题--我正在尝试从一个有相当多数据
的
主题中阅读。但是,我似乎没有内存/cpu问题(使用本地*集群运行此作业)。这感觉像是一个
s
浏览 21
提问于2019-09-18
得票数 4
回答已采纳
1
回答
livy服务器每次提交
批处理
作业时都会提交jar
apache-spark
、
livy
、
bigdata
当使用Livy服务器提交
Apache
Spark
批处理
作业时,它每次都会上传jar文件(包含应用程序),也就是说,对于每个
批处理
作业,submission.This似乎都会增加作业提交time.Is。有什么方法可以引用
spark
主机本地目录
中
的
jar?
浏览 1
提问于2017-05-12
得票数 2
1
回答
AWS上DC/OS集群上
的
火花作业
apache-spark
、
mesos
、
mesosphere
、
dcos
我试图运行一个
批处理
过程在星火上
的
DC/OS上
的
AWS。对于每个
批处理
过程,我有一些特定
的
参数,当我确实火花提交时(例如,对哪些用户执行
批处理
)。=application.conf -类class_name jar_location_on_S3’ 线程"main“
中
的
异常:没有为SimpleConfig.java:159) at com.typesafe.confi
浏览 0
提问于2016-05-19
得票数 1
4
回答
如何将
Apache
Spark
与Play Framework集成以实时显示预测?
scala
、
apache-spark
、
playframework-2.0
、
spark-streaming
、
apache-spark-mllib
我正在用
Apache
Spark
做一些测试,为我
的
大学期末项目做一些测试。我有一个数据集,用于生成决策树,并对新数据进行一些预测。在未来,我想将这个项目用于生产,在那里我将生成一个决策树(
批处理
),并通过web界面或移动应用程序接收新数据,对该条目的类别进行预测,并将结果立即通知用户。并在生成新
的
决策树(
批处理
)之后存储这些新条目,并连续重复此过程。尽管
Apache
Spark
的
目的是执行
批处理
,但是有一个允许您接收
浏览 2
提问于2015-05-10
得票数 6
1
回答
火花流:为什么内部处理成本这么高来处理几MB
的
用户状态?
java
、
performance
、
apache-spark
、
spark-streaming
根据我们
的
实验,当状态变成超过一百万个对象时,有状态
的
星火流内部处理成本会花费大量
的
时间。因此,延迟会受到影响,因为我们必须增加
批处理
间隔以避免不稳定行为(处理时间>
批处理
间隔)。它与我们
的
应用程序
的
细节无关,因为它可以通过下面的代码复制。 ,那些花了这么多时间处理用户状态
的
星火内部处理/基础设施成本到底是多少?除了简单地增加
批处理
间隔之外,还有其他减少处理时间
的
选择吗?我们计划广泛使用state :
浏览 2
提问于2015-09-10
得票数 24
回答已采纳
1
回答
集成火花和弹簧引导
java
、
spring-boot
、
apache-spark
在与记录器依赖项进行斗争之后,我终于用常用
的
"java -jar“命令成功地启动了spring引导应用程序。编译后
的
Jar包含mongodb库:825351 Mon Jul 30 14:42:22 CEST 2018 BOOT-INF/lib/mongo-
spark
-connector_2.11我也试图在类路径
中
添加库,但没有结果。 有没有人知道如何让火花看到
浏览 0
提问于2018-09-24
得票数 0
回答已采纳
1
回答
Apache
结构化流与
Apache
:有什么区别?
apache-spark
、
apache-flink
、
spark-structured-streaming
我们讨论了以下问题: 但是
Spark
Structured Streaming是在
Spark
2.2上添加
的
,它给流媒体带来了很多变化,而且它是非常出色
的
。我们可以说
Spark
Strutured Streaming是流处理,还是仍然是
批处理
?现在
Apache
Flink和
Apache
Spark
Structured Streaming
的
最大区别是什么?
浏览 3
提问于2017-09-01
得票数 13
1
回答
如何用livy编程API提交
批处理
jar火花作业
java
、
scala
、
apache-spark
、
livy
我想使用livy编程API提交
批处理
jar
Spark
作业,就像使用rest
批处理
一样,我有json数据 "className": "org.
apache
.
spark
.examples.SparkPi: "hadoop", "args": [2000], "file": "hdfs:&
浏览 1
提问于2018-11-21
得票数 2
3
回答
如何将数据集写入Kafka主题?
scala
、
apache-spark
、
apache-kafka
、
apache-spark-sql
我使用
的
是
Spark
2.1.0和Kafka 0.9.0。有没有人知道这样
的
事情是否可行?我用
的
是
spark
shell:
spark
-shell -
浏览 3
提问于2018-04-06
得票数 6
1
回答
火花流
中
状态函数
的
几个问题
java
、
apache-spark
、
spark-streaming
我尝试使用火花流,并希望有一个全局状态对象,可以更新后,每
批处理
。据我所知,至少有两个选项可供我选择: 1.使用mapWithState,在每一
批处理
后,火花将
自动
更新状态。state.update(sum); }这个例子是从星火本身引发
的
例子
中
拿来
的
: import org.
apache
.
spark
.api.j
浏览 1
提问于2016-12-05
得票数 1
2
回答
Spark
流实时处理
apache-spark
、
streaming
我需要一个应用程序,使工人之间
的
通信。假设worker 1正在处理job 1,它将生成其他works所依赖
的
数据输出。此外,这个过程应该重复多次,这意味着每当worker 1生成新
的
数据集时,其他worker都应该开始输入该数据集并完成自己
的
工作。
spark
能做到吗?到目前为止,我已经看到了
spark
流实时处理,但流通信似乎没有发生在工人之间?任何方向或建议都将不胜感激。
浏览 1
提问于2015-07-06
得票数 0
1
回答
使用前拆除火花RDD块
scala
、
apache-spark
、
spark-streaming
我使用一个未来在RDD上执行一个阻塞操作,如下所示:有时我会犯这样
的
错误更新:conf.set("
spark
.streaming.unpersist", "false") 和unpersist()-ing。如果这是一个bug,完整
的
堆栈跟踪
浏览 3
提问于2015-10-12
得票数 4
2
回答
如何使用AirFlow提取使用
Apache
批处理
POST方法提交
的
火花作业客户端日志
apache-spark
、
airflow
、
livy
我正在使用
Apache
批处理
POST方法提交
Spark
作业。使用
Apache
可以这样做吗?
浏览 4
提问于2019-01-20
得票数 4
回答已采纳
2
回答
什么是DataProcSparkOperator?
apache-spark
、
google-cloud-platform
、
apache-spark-sql
、
google-cloud-dataproc
我发现了很多使用它
的
信息和代码片段,然而,我仍然找不到一个可靠
的
定义。
浏览 84
提问于2021-11-04
得票数 3
回答已采纳
2
回答
如何在kappa架构中使用datatorrent?
apache-spark
、
apache-storm
、
apache-apex
、
lambda-architecture
我读了很多关于lambda和kappa架构
的
文章,在这些架构
中
,我们需要使用
Apache
Spark
或
Apache
Storm。我刚刚发现了一个名为DataTorrent
的
新工具,它可以进行
批处理
和实时处理。我想知道DataTorrent是否可以同时做lambda (或kappa)架构
的
批处理
层和速度层? 干杯,
浏览 38
提问于2016-07-20
得票数 1
回答已采纳
1
回答
使用power Shell或windows
批处理
文件
的
Spark
代码
自动
化
windows
、
scala
、
powershell
、
apache-spark
、
batch-file
我有一个场景,在这个场景
中
,我们将
apache
与sql服务器连接起来,将表
的
数据加载到
spark
中
,并从中生成aparquet文件。下面是我
的
代码片段:val jdbcDF = (
spark
.read.format("jdbc") .option("url", "jdbc:sqlservercom.microsoft.sqlserver.jdbc.
浏览 3
提问于2021-12-15
得票数 0
回答已采纳
1
回答
sparkML和systemML有什么不同?
apache-spark
、
systemml
spark
ML和system ML有什么区别?IBM上
的
apache
spark
engine
中
的
system ml和
spark
ml都解决了问题,想知道主要区别是什么吗?
浏览 44
提问于2020-04-21
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Spark 2.4 内置的 Avro 数据源实战
Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs
Bat批处理脚本中的 IF 语句
在云中使用Apache Hadoop,Spark和Hive的6个理由
Apache已修复Apache Tomcat中的高危漏洞
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券