超长队列的spark任务是如何处理的？

、、

我使用pyspark处理多个日志文件，其中一条记录被分成多行格式，所以我选择wholeTextFiles来读取数据，然后过滤出我想要的内容。每个文件大小约800M，共有4096个文件。然而，spark作业在处理一些任务后崩溃，以下是我的配置和代码。顺便说一句，如果有帮助，下面是关于处理的任务的更多信息：我在so ，和上发现了一些相关的</em

浏览 20提问于2019-10-28得票数 0

1回答

WCF与Spark的集成

、、、、

我们有在WCF基础设施上运行的服务。WCF服务客户端是.net窗口表单应用程序。对于一些时间和资源密集型任务，我们正在尝试将WCF服务与Apache Spark集成。WCF服务应该调用Apache Spark来执行任务。Apache Spark支持java而不是C#。我们需要一些方法来从WCF服务调用Spark来进行数据处理。我们正在尝试以插入式山墙方式添加spark。如果在不久的将来出现任何新技术

浏览 0提问于2015-12-23得票数 2

1回答

如何使用org.apache.spark.launcher.SparkLauncher设置队列

、、

如果我使用星星之交命令行将星火任务提交给纱线，我将能够使用--queue myqueuename设置队列。全员指挥是--master yarn \--input /data/input/path \ --output /data/out

浏览 4提问于2020-02-28得票数 1

回答已采纳

1回答

当工人完成他们的任务时，他们会发生什么？

、、、、

我有一个任务，我的目标是在joblib-library的帮助下并行化。该函数在连续运行时相当缓慢，因此我尝试使用并行化范例来加快这个过程。block_info.UnitID.unique()) 该块唯一有大约1000个条目和时间序列的创建，需要更长的一些单位比其他单位。这让我想到，一些工人被留在工作中，而另一些人则在执行一项繁重的任务<

浏览 8提问于2022-09-10得票数 0

回答已采纳

2回答

为多个环境设置Airflow

、

设置Airflow的惯用方法是什么?如果您有两个环境，例如Production-East和Production-West，则只显示来自每个环境的dags，但它们可以位于单个存储库中？

浏览 7提问于2018-11-21得票数 1

2回答

setTimeout实现节点的异步性

、、

这不是异步的，甚至不是非阻塞的，因为异步函数实际上是setTimeout，而不是fx，在setTimeout异步运行之后，您将运行fx，这将阻止您的代码。那么，setTimeout(fx, 0)仅仅是一种告诉节点‘嘿，只要有可能就运行这个’的方式吗？有什么方法可以在Node中可靠地运行异步函数吗？

浏览 4提问于2016-08-26得票数 0

回答已采纳

1回答

我应该使用多少个火花节点来使用Mesos或Yarn？

、、

目前，我运行的集群包含4个火花节点和1个solr节点。我希望快速地将集群扩展到20个节点，然后再扩展到大约100个节点。我只是不确定在多大的集群大小下使用Mesos或Yarn是有意义的？当我的节点少于100个时，添加Yarn或Mesos是否有意义？谢谢

浏览 3提问于2016-04-01得票数 0

回答已采纳

2回答

分布式队列和分布式计算平台有什么区别，如何选择？

、、、、

有很多文件需要在两台计算机上实时处理，我想把它们分发到两台计算机上，这些任务需要尽快完成(即实时处理)，我在考虑下面的计划：(2)分布式计算平台，如hadoop/spark/storm/s4等(1) (1)和(2)的优势和劣势是什么？(2)如何选择(2)，hadoop?spark?storm?S4?还是其他？也许我没有清楚地描述这个问题。在

浏览 0提问于2015-03-18得票数 0

1回答

与Spark资源使用相关的疑虑

、、

我正在执行Spark Streaming应用程序，并且正在缓存rdds用于历史回顾，我的批处理持续时间为1分钟，平均处理时间为14秒，因此执行器不会计算整个批处理持续时间。如果执行者被拖延，我们是否应该认为这种拖延执行者是浪费资源。

浏览 14提问于2017-06-29得票数 0

1回答

在主管的情况下，如何在执行者/任务之间进行RDD的重组。失败还是动态洗牌？

、

但是，它究竟如何处理由自定义编写的函数(如.forEach()和.forEachPartition() )处理的RDD重新分配呢？如果正在处理这样的任务的员工被杀死，那么到底会发生什么呢？，它接受分配给它的RDD的所有元素，并将它们放入队列中。然后，它继续遍历这个队列--或者删除已经处理过的元素，或者根据内部逻辑，在必须等待以后

浏览 2提问于2018-08-22得票数 1

2回答

Kafka.Utils.createRDD Vs KafkaDirectStreaming

、、

我想知道当我想读取所有Kafka队列时，使用batch-Kafka RDD而不是KafkaDirectStream，从Kafka队列读取操作是否更快。我观察到，使用批处理RDD从不同的分区读取数据不会导致Spark并发作业。是否有一些Spark专有者可以配置以允许此行为？谢谢。

浏览 0提问于2016-06-17得票数 1

0回答

增加独立模式下的并行任务数

我有一个集群独立模式的远程spark集群，它只包含一台带有2个处理器内核的机器。"cluster“包含master和一个worker。应用程序发送长时间运行的作业，作业对CPU工作的要求不高，但会对远程服务进行多次调用。换句话说，我使用的是类似spark的任务调度器。在测试期间，我看到应用程序在同一时间发送例如5个任务，但只有2个可以并行工作，另外3个在队列</e

浏览 1提问于2016-07-12得票数 0

1回答

C-同时接收和处理来自unix套接字的数据

、、

其过程如下: PHP接受用户上传的文件，然后向C发送一个“信号”，然后C调度另一个进程(fork)解压缩该文件(我知道这可以由PHP单独处理，这只是一个示例；整个问题更加复杂)。问题是我不想同时运行超过4个进程。我认为这可以像这样解决: C，当它从PHP获得一个新的“任务”时，将它转储到一个队列中，并逐个处理它们(确保不超过4个正在运行)，同时仍在侦听套接字。我不确定如何实现这一点，因为我不能在相同的过程中做到这一点(或者我能做到吗)

浏览 1提问于2013-07-10得票数 4

回答已采纳

1回答

使用msgrcv读取动态长度内容

、、、

我使用msgrcv函数从消息队列中读取消息。当我读取已知长度的数据时，它工作得很好。某些情况下，我的消息长度是可变的。在这种情况下，我如何才能只分配所需的内存量并从消息队列中读取消息，而不会丢失消息队列中的任何数据。请给出解决这个问题的想法。注意:在IBM消息队列中，当我们读取超长数据时，它会将消息的实际大小填充到我们传递的mq

浏览 5提问于2012-05-22得票数 0

1回答

当Kafka队列中的消息分配不均匀时，获取星火DStream批中的最大消息

、

我正在设置spark.streaming.kafka.maxRatePerPartition : 100。它在正常情况下运转良好。当消息在卡夫卡队列中的分布并不均衡时，问题就出现了。正在发生的情况是，即使分区中没有消息，而其他分区有更多的消息(比maxRatePerPartition更多)，但是spark批处理正在以较少的消息数量创建。当kafka队列中的msgs没有相同的分布时，

浏览 2提问于2021-09-29得票数 0

2回答

应用引擎任务队列安全上下文

、、

我正在研究如何在App Engine中运行后台任务。似乎任务队列是一个很好的选择。但是任务队列如何处理用户登录呢？我的后台任务需要用户登录。我的理解是，当任务队列运行任务时，它会向我的应用程序发送一个HTTP请求，但是如果我的所有资源都受到保护并需要一个用户

浏览 3提问于2016-07-18得票数 0

1回答

在上推和拉队列

、、、、

到目前为止，还没有人(甚至是GAE文档)能够真正清楚地描述push队列和拉队列之间的区别。但是，我找不到一个“国王的英语”描述推和拉队列<

浏览 5提问于2012-09-07得票数 23

回答已采纳

2回答

如何在与Spring Cloud Data Local服务器不同的服务器上运行任务

、、、、

我想托管一个Spring Cloud数据流本地服务器，用于监控和执行我的各种Spring Boot批处理项目。我想要实现的问题或基础架构是，我希望我的Spring Cloud数据流服务器主机在服务器A上，该主机能够在服务器B上执行Spring Boot批处理/任务。这是我试图实现的一个可能的配置吗？如果没有，我应该如何实现这一点？因为我有几个在不同服务器上运行Spring Boot批处理

浏览 5提问于2019-10-18得票数 0

3回答

引入事件循环优先于任务队列的单独微任务队列的动机是什么？

、、、、

我对JS中如何调度异步任务的理解如果我说错了什么，请纠正我： JS运行时引擎代理由一个事件循环驱动，该循环收集任何用户和其他事件，将任务排入队列以处理每个回调。事件循环持续运行，并具有以下思维过程：是执行上下文堆栈(通常称为调用堆栈)为空？如果是，则将微任务队列(或作业队列)中的任何微任务插入到调用堆栈中。继续执行此操作，直到微任务

浏览 52提问于2021-02-14得票数 9

回答已采纳

1回答

从Android中的处理程序启动AsyncTasks

、

处理程序消息队列是如何工作的？我知道的一个事实是，消息队列被绑定到初始化它的线程。如果我有两个任务(每个任务都是从web上下载的)，并且我从处理程序中启动了一个异步任务，每个任务一个，这两个任务是否会同时执行？我只需要理解队列是如何工作的..谁能帮帮忙！:

浏览 1提问于2012-10-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

WCF与Spark的集成

如何使用org.apache.spark.launcher.SparkLauncher设置队列

当工人完成他们的任务时，他们会发生什么？

为多个环境设置Airflow

setTimeout实现节点的异步性

我应该使用多少个火花节点来使用Mesos或Yarn？

分布式队列和分布式计算平台有什么区别，如何选择？

与Spark资源使用相关的疑虑

在主管的情况下，如何在执行者/任务之间进行RDD的重组。失败还是动态洗牌？

Kafka.Utils.createRDD Vs KafkaDirectStreaming

增加独立模式下的并行任务数

C-同时接收和处理来自unix套接字的数据

使用msgrcv读取动态长度内容

当Kafka队列中的消息分配不均匀时，获取星火DStream批中的最大消息

应用引擎任务队列安全上下文

在上推和拉队列

如何在与Spring Cloud Data Local服务器不同的服务器上运行任务

引入事件循环优先于任务队列的单独微任务队列的动机是什么？

从Android中的处理程序启动AsyncTasks

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐