开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

正在通过oozie运行配置单元脚本，但状态仅为Running

Oozie是一个用于协调和管理Hadoop作业的工作流调度引擎。它允许用户定义和执行复杂的工作流，其中包含一系列的动作和控制节点。在这个问答中，oozie正在运行配置单元脚本，但状态仅为Running。

这种情况可能是由以下几个原因引起的：

脚本执行时间过长：如果配置单元脚本非常复杂或者数据量较大，可能会导致脚本执行时间过长。在这种情况下，可以通过查看脚本日志来确定是否存在性能问题或错误。
资源不足：如果集群资源不足，例如内存、CPU等，可能会导致脚本执行缓慢或无法完成。可以通过增加集群资源来解决这个问题。
脚本错误：配置单元脚本中可能存在语法错误或逻辑错误，导致脚本无法正常执行。可以通过查看脚本日志或调试工具来定位和修复错误。

为了更好地解决这个问题，可以尝试以下步骤：

检查脚本日志：查看脚本日志以获取更多关于脚本执行的详细信息，包括任何错误或警告消息。根据日志中的提示来调整脚本或解决错误。
优化脚本性能：如果脚本执行时间过长，可以考虑对脚本进行性能优化。例如，可以使用更高效的算法、减少数据传输量或使用并行处理等方法来提高脚本执行效率。
增加资源：如果集群资源不足，可以考虑增加集群的内存、CPU等资源。这样可以提高集群的处理能力，使脚本能够更快地执行。
检查依赖关系：如果配置单元脚本依赖于其他作业或数据，确保这些依赖关系已正确配置。如果依赖关系存在问题，可能会导致脚本无法正常执行。

腾讯云提供了一系列与Hadoop和大数据相关的产品和服务，可以帮助用户进行工作流调度和数据处理。例如，腾讯云的数据工厂（DataWorks）可以提供可视化的工作流调度和数据集成服务，帮助用户更方便地管理和执行复杂的数据处理任务。您可以访问腾讯云的数据工厂产品介绍页面（https://cloud.tencent.com/product/dp）了解更多信息。

请注意，以上答案仅供参考，具体的解决方法和推荐产品可能因实际情况而异。在实际应用中，建议根据具体情况进行调整和选择合适的解决方案。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hadoop数据分析平台实战——180Oozie工作流使用介绍离线数据分析平台实战——180Oozie工作流使用介绍

离线数据分析平台实战——180Oozie工作流使用介绍 Oozie工作流介绍 Oozie的四大组件服务分别是: workflow, coordinator, bundle和sla。其中sla是作为监控服务协议的一个组件， workflow定义oozie的基本工作流， coordinator定义定时(或者是根据其他资源指标)运行的workflow任务， bundle是将多个coordinator作为一个组件一起管理。也就是说workflow是oozie中最基本的一个服务组件。三大服务的的关系

05

基于Hadoop生态圈的数据仓库实践 —— ETL（三）

三、使用Oozie定期自动执行ETL 1. Oozie简介（1）Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统，其工作流作业是由一系列动作构成的有向无环图（DAGs），协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp，及其Java程序和shell脚本等特定的系统作业。第一版Oozie是一个基于工作流引擎的服务器，通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器，按时间和数据触发工作流执行。它可以基于时间（如每小时执行一次）或数据可用性（如等待输入数据完成后再执行）连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象，批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业，这样可以更好地简化操作控制。（2）为什么需要Oozie

02

Oozie如何和安装部署

1、Oozie的简单介绍： 1、Oozie是一个工作流引擎服务器，用于运行hadoop map/reduce和hive等任务工作流，同时Oozie还是一个Java web程序，运行在Java Servlet容器中，如Tomcat中。Oozie以action为基本任务单元，可以将多个action构成一个DAG图，（有向五环图Direct Acyclic Graph）的模式进行运行。Oozie工作流通过HPDL(一种通过XML自定义处理的语言)来构造Oozie的工作流。一个Oozie服务器主要包括四个服务：Oo

09

[源码解析]Oozie来龙去脉之提交任务

Oozie是由Cloudera公司贡献给Apache的基于工作流引擎的开源框架，是Hadoop平台的开源的工作流调度引擎，用来管理Hadoop作业。本文是系列的第一篇，介绍Oozie的任务提交阶段。

03

Apache NiFi 简介及Processor实战应用

Apache NiFi是什么？NiFi官网给出如下解释：“一个易用、强大、可靠的数据处理与分发系统”。通俗的来说，即Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统，其为数据流设计，它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。为了对NiFi能够表述的更为清楚，下面通过NiFi的架构来做简要介绍，如下图所示。

Azkaban快速入门系列(1) | Azkaban的简单介绍

例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：

01

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。

05

[源码解析]Oozie来龙去脉之内部执行

Oozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架，是用于Hadoop平台的开源的工作流调度引擎，用来管理Hadoop作业，进行。本文是系列的第二篇，介绍Oozie的内部执行阶段。

02

Azkaban介绍

● 一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 ● 各任务单元之间存在时间先后及前后依赖关系 ● 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

02

Oozie分布式工作流——流控制

最近又开始捅咕上oozie了，所以回头还是翻译一下oozie的文档。文档里面最重要就属这一章了——工作流定义。一提到工作流，首先想到的应该是工作流都支持哪些工作依赖关系，比如串式的执行，或者一对多，或者多对一，或者条件判断等等。Oozie在这方面支持的很好，它把节点分为控制节点和操作节点两种类型，控制节点用于控制工作流的计算流程，操作节点用于封装计算单元。本篇就主要描述下它的控制节点... 背景先看看oozie工作流里面的几个定义： action,一个action是一个独立的任务，比如mapred

OushuDB入门（六）——任务调度篇

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80408771

01

HAWQ取代传统数仓实践（五）——自动调度工作流（Oozie、Falcon）

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不

06

【开源】etl作业调度工具性能综合对比

最近遇到了很多正在研究ETL及其工具的伙伴向我们抱怨：同样都在用 Kettle ，起点明明没差异，但为什么别人ETL做的那么快那么好，自己却不断掉坑？

02

Bug死磕之hue集成的oozie+pig出现资源任务死锁问题

这两天，打算给现有的Apache Hadoop2.7.1的集群装个hue，方便业务人员使用hue的可视化界面，来做一些数据分析任务，这过程遇到不少问题，不过大部分最终都一一击破，收获经验若干，折腾的过程，其实也是一个学习的过程，一个历练的过程，我相信优秀的人，都是经历过无数磨难成就的，并且有着坚持不放弃的心态，迎接各种挑战，如果你总是遇到困难就放弃，那么你永远也不能成为最优秀的人，废话不多说了，下面开始进入正题：框架版本如下： Centos6.5 Apache Hadoop2.7.1 Apac

06

【Dr.Elephant中文文档-4】开发者指南

为了在本地部署Dr.Elephant测试，你需要安装Hadoop(version 2.x)或者Spark(Yarn mode, version > 1.4.0)，以及资源管理服务和历史作业服务（可以用伪分布式）。关于伪分布式模式在 YARN 上运行 MapReduce 作业相关说明可以在这里(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html)[1]找到。

02

AIRFLow_overflow百度百科

Airflow 是一个 Airbnb 的 Workflow 开源项目，使用Python编写实现的任务管理、调度、监控工作流平台。Airflow 是基于DAG(有向无环图)的任务管理系统，可以简单理解为是高级版的crontab，但是它解决了crontab无法解决的任务依赖问题。与crontab相比Airflow可以方便查看任务的执行状况（执行是否成功、执行时间、执行依赖等），可追踪任务历史执行情况，任务执行失败时可以收到邮件通知，查看错误日志。

02

进击大数据系列（十一）Hadoop 任务调度框架 Oozie

Oozie 是一个用来管理 Hadoop 生态圈 job 的工作流调度系统。由 Cloudera公司贡献给 Apache。

02

Oozie多任务串联和定时任务执行？看这篇就懂了!

写在前面：博主是一名大数据的初学者，昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白，写博客一方面是为了记录自己的学习历程，一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限，博客中难免会有一些错误，有纰漏之处恳请各位大佬不吝赐教！个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/ 尽管当前水平可能不及各位大佬，但我还是希望自己能够做得更好，因为一天的生活就是一生的缩影。

03

10级商用版Kettle作业调度工具taskctl免费开源

taskctl是一款由成都塔斯克信息技术公司历经10年研发的etl作业集群调度工具，该产品概念新颖，体系完整、功能全面、使用简单、操作流畅，它不仅有完整的调度核心、灵活的扩展，同时具备完整的应用体系。目前已获得金融，政府，制造，零售，健康，互联网等领域1000多家头部客户认可。

04

Oozie4.0.1详细安装教程

1、编译oozie 环境条件： Unix box (tested on Mac OS X and Linux) Java JDK 1.6+ Maven 3.0.1+ Hadoop 0.20.2+ Pig 0.7+

02

systemctl命令

Systemd是一个命令组，涉及到系统管理的方方面面，而systemctl是Systemd的主命令，用于管理系统。

02

大数据技术之_14_Oozie学习

Oozie 英文翻译为：驯象人。一个基于工作流引擎的开源框架，由 Cloudera 公司贡献给 Apache，提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。

02

针对 Hadoop 的 Oozie 工作流管理引擎的实际应用

Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架（如图 1 所示）使用 Oozie协调器促进了相互依赖的重复工作之间的协调，您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle系统提交或维护一组协调应用程序。作为本练习的一部分，Oozie 运行了一个 Apache Sqoop 作业，以便在 MySQL数据库中的数据上执行导入操作，并将数据传输到 Hadoop 分布式文件系统 (HDFS) 中。可以利用导入的数据集执行 Sqoop合并操作，从而更新较旧的数据集。通过利用 UNIX shell 操作，可从 MySQL 数据库中提取用来执行 Sqoop 作业的元数据。同理，可执行 Java操作来更新 Sqoop 作业所需的 MySQL 数据库中的元数据。

03

oozie 客户端常用命令

1.提交作业，作业进入PREP状态 oozie job -oozie http://localhost:11000/oozie -config job.properties -submit job: 14-20090525161321-oozie-joe 2.执行已提交的作业 oozie job -oozie http://localhost:11000/oozie -start 14-20090525161321-oozie-joe 3.直接运行作业

07

Oozie分布式任务的工作流——脚本篇

继前一篇大体上翻译了Email的Action配置，本篇继续看一下Shell的相关配置。 Shell Action Shell Action可以执行Shell脚本命令，工作流会等到shell完全执行完毕后退出，再执行下一个节点。为了运行shell，必须配置job-tracker以及name-node，并且设置exec来执行shell. Shell既可以使用job-xml引用一个配置文件，也可以在shell action内直接配置。shell action中的配置会覆盖job-xml中的配置。 EL表达式

09

CDH——Cloudera’s Distribution Including Apache Hadoop

补充: 为什么在 Hadoop 2.x 中 HDFS 中有 ZKFC 进程，而 yarn 却没有？在 Hadoop 1.x 升级到 Hadoop 2.x 的过程中，考虑到向下兼容的问题， NameNode 进程没有嵌入 ZKFC 中的代码，而另外开辟一个进程 ZKFC 。再者由于 Hadoop 1.x 中没有 yarn 组件，Hadoop 2.x 中才出现的 yarn 组件，所以 yarn 不用考虑向下兼容的问题，即 ResourceManager 进程就直接嵌入 ZKFC 中的代码，只运行一个进程。

03

如何在HUE上通过oozie调用Pig工作流

执行pig脚本将name_age_comma.txt文件中的逗号,转为竖线|，并输出到/user/hue/learn_oozie/mazy_pig_1/output路径下。

03

【Dr.Elephant中文文档-2】管理员指南

Dr. Elephant依赖于 YARN 的资源管理服务器和历史作业记录服务器，来获取作业详细信息和记录。YARN 作业及其分析的详细信息将存储在当前配置的后端 mysql 中。因此在运行Dr. Elephant前，必须安装好 MySQL 和 hadoop 2。从#162开始，将不再支持JAVA 6。

02

0498-Hue Sqoop1的编辑器中执行Sqoop作业失败问题分析

Hue做为Hadoop平台的一款UI工具，提供了丰富的功能。可以通过Hue访问Hadoop的文件系统、Hive、Impala、HBase、Solr、Sqoop等。集成了Oozie实现界面化工作流调度流程，同样也可以集成第三方APP及SQL等。本篇文章Fayson主要介绍在使用Hue提供的Sqoop1编辑功能执行Sqoop作业异常问题分析。

01

快速学习-Oozie的使用

目标：使用Oozie调度MapReduce任务分步执行： 1）找到一个可以运行的mapreduce任务的jar包（可以用官方的，也可以是自己写的） 2）拷贝官方模板到oozie-apps

00

数据采集框架Gobblin简介

问题导读： Gobblin的架构设计是怎样的？ Gobblin拥有哪些组建，如何实现可扩展？ Gobblin采集执行流程的过程？

02

Oozie工作流分析

我们在实际的生成操作中经常需要将一些任务在晚上开启进行定时执行，或者多个作业，例如hive,mapreduce,shell等任务的组合调用。

01

【20】进大厂必须掌握的面试题-50个Hadoop面试

“大数据”是用于收集大型和复杂数据集的术语，这使得很难使用关系数据库管理工具或传统数据处理应用程序进行处理。很难捕获，整理，存储，搜索，共享，传输，分析和可视化大数据。大数据已成为公司的机遇。现在，他们可以成功地从数据中获取价值，并通过增强的业务决策能力在竞争者中拥有明显的优势。

01

基于Azkaban的任务定时调度实践

Azkaban是LinkedIn开源的任务调度框架，类似于JavaEE中的JBPM和Activiti工作流框架。

09

工作流引擎比较：Airflow、Azkaban、Conductor、Oozie和 Amazon Step Functions

我不是任何这些引擎的专家，但已经使用了其中的一些（Airflow和Azkaban）并检查了代码，对于其他一些产品，我要么只阅读代码（Conductor）或文档（Oozie / AWS步骤函数），由于大多数是OSS项目，我当然可能错过了某些未记录的功能或社区贡献的插件。如果你发现任何错误，我很乐意更新。

03

oozie 安装过程详解

1.从apache的官网下载oozie3.3.2 2.编译oozie，以下命令用root来执行吧，它不做任何的测试的，因为一测试就会出错的官网估计也知道，所以顺便也提供了一个跳过参数的命令。。。 bin/mkdistro.sh -DskipTests 编译完成之后的实际可运行程序位于oozie/distro/target/oozie-3.3.2-distro/ 目录下我好不容易找到了这个目录，我把它已到了/usr目录下面 3.在oozie的

04

使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.问题描述 Fayson前面的一篇文章讲过《如何在Hue中创建Ssh的Oozie工作流》。但当重定向输出日志时，会出现异常。 Ssh Action的Oozie工作流创建如下： 📷 运行异常日志如下,提示：代码块部分可以左右滑动查看噢 2.解决方法通过上述方式创建Ssh Action工作流主要是由于”>>

Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析

在使用Hue创建Ssh的Oozie工作流，在Shell脚本中执行sudo命令失败，异常如下：

05

使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析

Fayson前面的一篇文章讲过《如何在Hue中创建Ssh的Oozie工作流》。但当重定向输出日志时，会出现异常。

09

如何在Oozie中创建有依赖的WorkFlow

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在使用Hue创建WorkFlow时，单个WorkFlow中可以添加多个模块的依赖，使各个模块之间在WorkFlow内产生依赖关系，如果对于一个WorkFlow被其它多个WorkFlow依赖（如：AWorkFlow执行成功后，BWorkFlow和CWorkFlow依赖AWorkFl

09

Flink整合Oozie Shell Action提交任务带Kerberos认证

原文：https://www.cnblogs.com/ljygz/p/11727770.html

02

什么是Oozie？如何使用Oozie？蒟蒻博主带你快速上手Oozie!

本篇博客，博主为大家介绍的是Oozie，一种运行在hadoop平台上的工作流调度引擎。如果看完后有点收获，不妨给博主一个大大的赞|ू･ω･` )

02

【Linux】《how linux work》第六章用户空间如何启动

The point where the kernel starts its first user-space process, init, is significant—not just because that’s where the memory and CPU are finally ready for normal system operation, but because that’s where you can see how the rest of the system builds up as a whole. Prior to this point, the kernel executes a well-controlled path of execution defined by a relatively small number of software developers. User space is far more modular. It’s much easier to see what goes into the user space startup and operation. For the adventurous, it’s also relatively easy to change the user space startup because doing so requires no low-level programming.

01

oozie 重新提交作业

在oozie的运行过程当中可能会出现错误，比如数据库连接不上，或者作业执行报错导致流程进入suspend或者killed状态，这个时候我们就要分析了，如果确实是数据或者是网络有问题，我们比如把问题解决了才可以重新运行作业。重新运行作业分两种情况，suspend状态和killed状态的，这两种状态是要通过不同的处理方式来处理的。　　（1）suspend状态的我们可以用resume方式来在挂起的地方恢复作业，重新运行，或者是先杀掉它，让它进入killed状态，再进行重新运行。 public sta

09

Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署

Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署参考：oozie\package-info.java 项目进度模块名称完成情况用户基本信息分析(MR)� 完成浏览器信息分析(MR) 完成地域信息分析(MR) 完成外链信息分析(MR) 完成用户浏览深度分析(Hive) 完成订单分析(Hive) 完成事件分析(Hive) 完成 MR程序Oozie workflow部署 MR程序有两种方式进行oozie部署，第一种就是使

09

hadoop记录 - 乐享诚美

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

hadoop记录

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

如何使用Oozie API接口向Kerberos环境的CDH集群提交Shell作业

前面Fayson介绍了使用Oozie API向Kerberos和非Kerberos集群提交Spark和Java作业，本篇文章主要介绍如何使用Oozie Client API向Kerberos环境的CDH集群提交Shell Action工作流。

06

1.Azkaban简介

一个完整的大数据分析系统，必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：

04

闲聊调度系统 Apache Airflow

Apache Airflow 是一个由开源社区维护的，专职于调度和监控工作流的 Apache 项目，于2014年10月由 Airbnb 开源，2019年1月从 Apache 基金会毕业，成为新的 Apache 顶级项目。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭