腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
超长
队列
的
spark
任务
是
如何
处理
的
?
、
、
我使用pyspark
处理
多个日志文件,其中一条记录被分成多行格式,所以我选择wholeTextFiles来读取数据,然后过滤出我想要
的
内容。每个文件大小约800M,共有4096个文件。然而,
spark
作业在
处理
一些
任务
后崩溃,以下
是
我
的
配置和代码。顺便说一句,如果有帮助,下面
是
关于
处理
的
任务
的
更多信息: 我在so ,和上发现了一些相关
的</em
浏览 20
提问于2019-10-28
得票数 0
1
回答
WCF与
Spark
的
集成
、
、
、
、
我们有在WCF基础设施上运行
的
服务。WCF服务客户端
是
.net窗口表单应用程序。对于一些时间和资源密集型
任务
,我们正在尝试将WCF服务与Apache
Spark
集成。WCF服务应该调用Apache
Spark
来执行
任务
。Apache
Spark
支持java而不是C#。我们需要一些方法来从WCF服务调用
Spark
来进行数据
处理
。我们正在尝试以插入式山墙方式添加
spark
。如果在不久
的
将来出现任何新技术
浏览 0
提问于2015-12-23
得票数 2
1
回答
如何
使用org.apache.
spark
.launcher.SparkLauncher设置
队列
、
、
如果我使用星星之交命令行将星火
任务
提交给纱线,我将能够使用--queue myqueuename设置
队列
。全员指挥
是
--master yarn \--input /data/input/path \ --output /data/out
浏览 4
提问于2020-02-28
得票数 1
回答已采纳
1
回答
当工人完成他们
的
任务
时,他们会发生什么?
、
、
、
、
我有一个
任务
,我
的
目标
是
在joblib-library
的
帮助下并行化。该函数在连续运行时相当缓慢,因此我尝试使用并行化范例来加快这个过程。block_info.UnitID.unique()) 该块唯一有大约1000个条目和时间序列
的
创建,需要更长
的
一些单位比其他单位。这让我想到,一些工人被留在工作中,而另一些人则在执行一项繁重
的
任务<
浏览 8
提问于2022-09-10
得票数 0
回答已采纳
2
回答
为多个环境设置Airflow
、
设置Airflow
的
惯用方法是什么?如果您有两个环境,例如Production-East和Production-West,则只显示来自每个环境
的
dags,但它们可以位于单个存储库中?
浏览 7
提问于2018-11-21
得票数 1
2
回答
setTimeout实现节点
的
异步性
、
、
这不是异步
的
,甚至不是非阻塞
的
,因为异步函数实际上
是
setTimeout,而不是fx,在setTimeout异步运行之后,您将运行fx,这将阻止您
的
代码。那么,setTimeout(fx, 0)仅仅是一种告诉节点‘嘿,只要有可能就运行这个’
的
方式吗?有什么方法可以在Node中可靠地运行异步函数吗?
浏览 4
提问于2016-08-26
得票数 0
回答已采纳
1
回答
我应该使用多少个火花节点来使用Mesos或Yarn?
、
、
目前,我运行
的
集群包含4个火花节点和1个solr节点。我希望快速地将集群扩展到20个节点,然后再扩展到大约100个节点。我只是不确定在多大
的
集群大小下使用Mesos或Yarn
是
有意义
的
?当我
的
节点少于100个时,添加Yarn或Mesos是否有意义? 谢谢
浏览 3
提问于2016-04-01
得票数 0
回答已采纳
2
回答
分布式
队列
和分布式计算平台有什么区别,
如何
选择?
、
、
、
、
有很多文件需要在两台计算机上实时
处理
,我想把它们分发到两台计算机上,这些
任务
需要尽快完成(即实时
处理
),我在考虑下面的计划:(2)分布式计算平台,如hadoop/
spark
/storm/s4等(1) (1)和(2)
的
优势和劣势是什么?(2)
如何
选择(2),hadoop?
spark
?storm?S4?还是其他?也许我没有清楚地描述这个问题。在
浏览 0
提问于2015-03-18
得票数 0
1
回答
与
Spark
资源使用相关
的
疑虑
、
、
我正在执行
Spark
Streaming应用程序,并且正在缓存rdds用于历史回顾,我
的
批
处理
持续时间为1分钟,平均
处理
时间为14秒,因此执行器不会计算整个批
处理
持续时间。如果执行者被拖延,我们是否应该认为这种拖延执行者
是
浪费资源。
浏览 14
提问于2017-06-29
得票数 0
1
回答
在主管
的
情况下,
如何
在执行者/
任务
之间进行RDD
的
重组。失败还是动态洗牌?
、
但是,它究竟
如何
处理
由自定义编写
的
函数(如.forEach()和.forEachPartition() )
处理
的
RDD重新分配呢?如果正在
处理
这样
的
任务
的
员工被杀死,那么到底会发生什么呢?,它接受分配给它
的
RDD
的
所有元素,并将它们放入
队列
中。然后,它继续遍历这个
队列
--或者删除已经
处理
过
的
元素,或者根据内部逻辑,在必须等待以后
浏览 2
提问于2018-08-22
得票数 1
2
回答
Kafka.Utils.createRDD Vs KafkaDirectStreaming
、
、
我想知道当我想读取所有Kafka
队列
时,使用batch-Kafka RDD而不是KafkaDirectStream,从Kafka
队列
读取操作是否更快。我观察到,使用批
处理
RDD从不同
的
分区读取数据不会导致
Spark
并发作业。是否有一些
Spark
专有者可以配置以允许此行为? 谢谢。
浏览 0
提问于2016-06-17
得票数 1
0
回答
增加独立模式下
的
并行
任务
数
我有一个集群独立模式
的
远程
spark
集群,它只包含一台带有2个
处理
器内核
的
机器。"cluster“包含master和一个worker。应用程序发送长时间运行
的
作业,作业对CPU工作
的
要求不高,但会对远程服务进行多次调用。换句话说,我使用
的
是
类似
spark
的
任务
调度器。在测试期间,我看到应用程序在同一时间发送例如5个
任务
,但只有2个可以并行工作,另外3个在
队列</e
浏览 1
提问于2016-07-12
得票数 0
1
回答
C-同时接收和
处理
来自unix套接字
的
数据
、
、
其过程如下: PHP接受用户上传
的
文件,然后向C发送一个“信号”,然后C调度另一个进程(fork)解压缩该文件(我知道这可以由PHP单独
处理
,这只是一个示例;整个问题更加复杂)。问题
是
我不想同时运行超过4个进程。我认为这可以像这样解决: C,当它从PHP获得一个新
的
“
任务
”时,将它转储到一个
队列
中,并逐个
处理
它们(确保不超过4个正在运行),同时仍在侦听套接字。我不确定
如何
实现这一点,因为我不能在相同
的
过程中做到这一点(或者我能做到吗)
浏览 1
提问于2013-07-10
得票数 4
回答已采纳
1
回答
使用msgrcv读取动态长度内容
、
、
、
我使用msgrcv函数从消息
队列
中读取消息。当我读取已知长度
的
数据时,它工作得很好。某些情况下,我
的
消息长度
是
可变
的
。在这种情况下,我
如何
才能只分配所需
的
内存量并从消息
队列
中读取消息,而不会丢失消息
队列
中
的
任何数据。请给出解决这个问题
的
想法。注意:在IBM消息
队列
中,当我们读取
超长
数据时,它会将消息
的
实际大小填充到我们传递
的
mq
浏览 5
提问于2012-05-22
得票数 0
1
回答
当Kafka
队列
中
的
消息分配不均匀时,获取星火DStream批中
的
最大消息
、
我正在设置
spark
.streaming.kafka.maxRatePerPartition : 100。它在正常情况下运转良好。当消息在卡夫卡
队列
中
的
分布并不均衡时,问题就出现了。正在发生
的
情况
是
,即使分区中没有消息,而其他分区有更多
的
消息(比maxRatePerPartition更多),但是
spark
批
处理
正在以较少
的
消息数量创建。当kafka
队列
中
的
msgs没有相同
的
分布时,
浏览 2
提问于2021-09-29
得票数 0
2
回答
应用引擎
任务
队列
安全上下文
、
、
我正在研究
如何
在App Engine中运行后台
任务
。似乎
任务
队列
是
一个很好
的
选择。但是
任务
队列
如何
处理
用户登录呢?我
的
后台
任务
需要用户登录。我
的
理解
是
,当
任务
队列
运行
任务
时,它会向我
的
应用程序发送一个HTTP请求,但是如果我
的
所有资源都受到保护并需要一个用户
浏览 3
提问于2016-07-18
得票数 0
1
回答
在上推和拉
队列
、
、
、
、
到目前为止,还没有人(甚至
是
GAE文档)能够真正清楚地描述push
队列
和拉
队列
之间
的
区别。但是,我找不到一个“国王
的
英语”描述推和拉
队列<
浏览 5
提问于2012-09-07
得票数 23
回答已采纳
2
回答
如何
在与Spring Cloud Data Local服务器不同
的
服务器上运行
任务
、
、
、
、
我想托管一个Spring Cloud数据流本地服务器,用于监控和执行我
的
各种Spring Boot批
处理
项目。我想要实现
的
问题或基础架构
是
,我希望我
的
Spring Cloud数据流服务器主机在服务器A上,该主机能够在服务器B上执行Spring Boot批
处理
/
任务
。 这是我试图实现
的
一个可能
的
配置吗?如果没有,我应该
如何
实现这一点?因为我有几个在不同服务器上运行Spring Boot批
处理
浏览 5
提问于2019-10-18
得票数 0
3
回答
引入事件循环优先于
任务
队列
的
单独微
任务
队列
的
动机是什么?
、
、
、
、
我对JS中
如何
调度异步
任务
的
理解 如果我说错了什么,请纠正我: JS运行时引擎代理由一个事件循环驱动,该循环收集任何用户和其他事件,将
任务
排入
队列
以
处理
每个回调。事件循环持续运行,并具有以下思维过程:
是
执行上下文堆栈(通常称为调用堆栈)为空? 如果
是
,则将微
任务
队列
(或作业
队列
)中
的
任何微
任务
插入到调用堆栈中。继续执行此操作,直到微
任务
浏览 52
提问于2021-02-14
得票数 9
回答已采纳
1
回答
从Android中
的
处理
程序启动AsyncTasks
、
处理
程序消息
队列
是
如何
工作
的
?我知道
的
一个事实是,消息
队列
被绑定到初始化它
的
线程。如果我有两个
任务
(每个
任务
都是从web上下载
的
),并且我从
处理
程序中启动了一个异步
任务
,每个
任务
一个,这两个
任务
是否会同时执行? 我只需要理解
队列
是
如何
工作
的
..谁能帮帮忙!:
浏览 1
提问于2012-10-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
悬赏平台是如何处理任务完成后的悬赏金的?
Redis+NodeJS 实现一个能处理海量数据的异步任务队列系统
消息队列是如何保证高可用的
Celery,异步任务队列的专家 Python 库!
多任务处理为什么是效率最低的?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券