并行运行luigi任务

、

我有一个带有几个luigi任务的应用程序(这个应用程序不是我写的)。现在我想介绍另一个任务，在流程的中间，它将监视一些AWS实例。此任务一旦启动，应一直运行到结束，并且必须与其他任务并行运行。我是第一次接触luigi，我可能错过了一些东西。

浏览 22提问于2019-08-29得票数 0

1回答

Pyspark Luigi多个工作进程问题

、、、、

我想使用Luigi工作流并行加载spark data frame中的多个文件，并将它们存储在字典中。当我运行Luigi时，一个运行Luigi的worker.if与多个工作人员一起运行Luigi时，此变量在main方法中为空。 from Luigi import LocalTarget from pyspark import SQLContext

浏览 9提问于2021-05-18得票数 1

1回答

也就是说，我们为不同的x= A, B, C ...运行x=。job_2运行一组参数，这些参数依赖于job_1(x)的结果，job_2还加载job_A(x)存储的数据。诸若此类。因此，如果job_A for x=B失败了，那么树的分支将完全失败，不应该运行。不过，所有其他分支都应该运行。所有作业都是用Python编写的，并使用并行性(基于生成SLURM作业)。无论树中较高的作业是否失败，所有作业都会运行。如果不深入了解依赖关系，就很难看出问题在哪里。如果更高的作业(例如，job_A)没有

浏览 6提问于2015-12-17得票数 6

回答已采纳

1回答

是否有可能编写一个允许失败子任务的luigi包装器任务？

、、、、

我有一个luigi任务，执行一些不稳定的计算。想一想一个有时不收敛的优化过程。(self.output_filename) return luigi</

浏览 3提问于2020-05-04得票数 15

1回答

在python luigi上调度大量作业

、

我已经编写了一个Luigi管道来提取1.2mio文件，然后对它们做一些sed工作-参见。如果我在几千个文件上通过Luigi运行它，它的调度很好。但在整个数据集上运行时，它会向Failed connecting to remote scheduler抱怨。我不确定我这样做的方式是否正确。

浏览 0提问于2017-07-10得票数 3

1回答

如何让我的Luigi调度器利用多个核心与并行调度标志？

、、、

我的luigi.cfg文件中有以下一行(在所有节点、调度程序和工作人员上)：parallel-scheduling: true源建议此标志确实应该在调度程序上使用多个核。在中，调用来并行检查任务的.complete()

浏览 5提问于2016-03-25得票数 5

回答已采纳

1回答

Luigi Orchestrator中的并行任务

、、、

我定义了三个任务( T1、T2和T3 )，然后定义了一个任务T4，如下所示： def requires(self):有没有一种自然的方式告诉Luigi，我希望这些任务( T1、T2和T3 )并行执行？

浏览 1提问于2015-12-07得票数 9

回答已采纳

1回答

在Luigi中链接多个任务

、

我有一个Luigi任务，用于根据传递给它的参数获取不同的数据，另一个任务是接收这些文件并将它们发送到我们的数据仓库。我的问题是，我不知道如何按顺序安排第一个任务的多个版本，以便以后可以将它们发送到datalake。这是我的密码： startDate = luigi.Parameter(带有指定参数)获取数据，就可以使用传输任务</

浏览 3提问于2020-01-07得票数 0

1回答

具有多输入的luigi任务体系结构

、、

例如，例如文件some_word.txt2005-01-02,0.00034我很难用luigi框架来组织这个过程。我当前的顶级任务需要一个单词，查找每个日期的相关频率，并将结果存储在CSV文件中。我想我可以循环遍历我的主文件中的每个单词，然后用这个单词运行任务，但是我估计这需要几个月的时间，如果不是更长的话。下面是简化版的顶级AggregateTokenFreqs任务。class AggregateTokenFreqs(lu

浏览 4提问于2016-11-28得票数 2

1回答

Python中的工作流框架

、、、、

我试图在Python中创建具有以下特性的工作流：此外，在我开始创建我自己的工作流之前，我希望其他的Python框架能对我有所帮助。

浏览 0提问于2019-01-02得票数 0

1回答

如何在执行luigi任务时修复"luigi.worker.TaskException: Can not schedule non-task <class 'main.Task'>“？

、、、

我是Luigi的新手，我已经创建了一个管道，它从数据库中获取数据，转换数据，然后将其加载回数据库。我在其中创建了四个任务。但是，当我在cmd或Pycharm上执行任务时，它显示不能调度非任务。每个任务的参数不是输入，而是从其他文件中获取。class Task1(luigi.Task): def get_target(): def run():

浏览 26提问于2019-08-28得票数 1

回答已采纳

1回答

具有多个系统的Python文件夹结构

我正在尝试重组一个大型项目，这样我就可以在用flask编写的web前端应用程序和使用luigi任务的自动化后端程序之间重用一组核心代码。所以我有两个客户端，我想在它们之间共享代码，以便访问数据库并从web或luigi执行一些自动化任务。什么是保持这三件事的组织和结构的好方法，以便我可以轻松地将核心模块导入到这两个项目中。我在让Luigi识别与它并行的模块时遇到了一些问题。

浏览 3提问于2017-05-31得票数 0

1回答

如何忽略在另一个任务的run()中触发的Luigi任务的失败

、、

考虑以下任务： def run(self): for i in如果我运行YieldFailTaskInBatches，Luigi运行在第一个循环中产生的任务，当其中一个任务失败(i = 0, j = 1)时，Luigi不会产生其余的任务。如果我运行YieldAll

浏览 37提问于2018-11-28得票数 3

回答已采纳

1回答

有没有可能给并行luigi.Tasks增加一点延迟？

我在工作流中有许多没有依赖项的luigi.Tasks。然而，这些任务中每一个都会向服务器发送一个命令，如果我不稍微错开发送命令，服务器可能会不堪重负。

浏览 13提问于2017-07-04得票数 0

回答已采纳

1回答

如果下一个文件已经完成，则luigi任务将失败

、、

我有一个用Luigi构建的管道，其中一些任务需要其他任务，每个任务创建一个文件。------->TaskB---------> TaskC-------->TaskD (fileA) (fileB) (fileC) (fileD) 当我第一次运行流水线时，一切都运行得很好，并且都被创建了。如果我再次运行管道，则不会运行任何内容，因为TaskD已经完成。如果我手动删除(由TaskB制作的) fil

浏览 15提问于2020-09-18得票数 0

2回答

Luigi工作流:具有“软”依赖关系的任务？

我正在使用Luigi进行依赖解析，它工作得很好。让我解释一下。假设我当前的任务下载并处理一系列日期的数据。假设在那之后，我想运行一个遍历所有数据并输出一个简单摘要的脚本。不是每个日期一个摘要，而是所有已下载数据的一个摘要。我称之为软依赖，因为我希望我的最终脚本在所有日期的数据上运行，但如果有几个日期无法下载，我仍然希望为其他日期运行脚本。我应该如何组织这个用例的任务，或者这不是Luigi的工作？

浏览 0提问于2019-01-31得票数 1

1回答

Luigi并没有像预期的那样与Spark & Redshift一起工作

、

我正在运行一个EMR星系团(使用纱线)，我正在运行Luigi任务直接从EMR主。我的工作链依赖于S3中的数据，在几个SparkSubmitTasks之后，最终将在Redshift中结束。import luigifrom luigi.contrib.spark import SparkSubmitTask from luigi.contrib.redshift= luigi.Parameter(

浏览 2提问于2015-12-10得票数 0

回答已采纳

1回答

luigi每任务重试策略

、

我在配置luigi每任务重试策略时遇到问题。我已经按如下方式配置了全局luigi.cfg文件：retry-delay: 1keep_alive: true此外，它在luigi配置手册中指出，编写任务如下：只需覆盖luigi.cfg中指定的luigi</e

浏览 15提问于2016-09-20得票数 2

6回答

如何重置luigi任务状态？

、、

目前，我有许多luigi任务一起排队，其中有一个简单的依赖链( a -> b -> c -> d)。首先执行d，最后执行a。a是被触发的任务。除a之外，所有目标都返回一个luigi.LocalTarget()对象，并有一个泛型luigi.Parameter()，它是一个字符串(包含日期和时间)。在luigi中央服务器上运行(该服务器已启用历史记录)。问题是，当我重新运行该任务a时，luigi检查历史

浏览 11提问于2016-01-05得票数 15

回答已采纳

0回答

创建Luigi任务图时出现JSON序列化错误

、、、、

我试图使用Luigi批量处理几个Jupyter笔记本，但遇到了一个问题。这定义了一个Luigi任务，该任务将一个笔记本作为输入(以及运行该任务之前可能的需求)，并且应该运行该笔记本，并将成功或失败报告为输出。为了运行Transform任务，我有一个很小的Runner类：

浏览 1提问于2017-06-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark Luigi多个工作进程问题

以DAG方式调度作业

是否有可能编写一个允许失败子任务的luigi包装器任务？

在python luigi上调度大量作业

如何让我的Luigi调度器利用多个核心与并行调度标志？

Luigi Orchestrator中的并行任务

在Luigi中链接多个任务

具有多输入的luigi任务体系结构

Python中的工作流框架

如何在执行luigi任务时修复"luigi.worker.TaskException: Can not schedule non-task <class 'main.Task'>“？

具有多个系统的Python文件夹结构

如何忽略在另一个任务的run()中触发的Luigi任务的失败

有没有可能给并行luigi.Tasks增加一点延迟？

如果下一个文件已经完成，则luigi任务将失败

Luigi工作流:具有“软”依赖关系的任务？

Luigi并没有像预期的那样与Spark & Redshift一起工作

luigi每任务重试策略

如何重置luigi任务状态？

创建Luigi任务图时出现JSON序列化错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐