Pentaho数据集成:作业即使在成功后也能继续运行

Pentaho数据集成是一种强大的开源数据集成工具，它可以帮助用户在不同的数据源之间进行数据的提取、转换和加载（ETL）操作。作业是Pentaho数据集成中的一个重要概念，它代表了一个由多个数据集成步骤组成的工作流程。

作业在Pentaho数据集成中具有以下特点和优势：

灵活性：作业可以根据用户的需求进行定制和配置，可以包含多个数据集成步骤，以实现复杂的数据处理逻辑。
可扩展性：作业可以通过添加新的数据集成步骤来扩展功能，以满足不同的数据处理需求。
可靠性：作业可以在成功后继续运行，这意味着即使在数据集成过程中出现错误或中断，作业也可以自动恢复并继续执行后续步骤，确保数据处理的连续性和完整性。
监控和调度：作业可以通过Pentaho数据集成的调度器进行定时执行，用户可以监控作业的运行状态和结果，以及进行错误处理和日志记录。
多种数据源支持：作业可以连接和处理各种不同类型的数据源，包括关系型数据库、文件系统、Web服务等。
平台无关性：Pentaho数据集成是基于Java开发的，可以在不同的操作系统和云平台上运行。

Pentaho数据集成的应用场景包括但不限于：

数据仓库和商业智能：通过作业来提取、清洗和加载数据到数据仓库，以支持数据分析和报表生成。
数据迁移和同步：将数据从一个系统迁移到另一个系统，或者实现不同系统之间的数据同步。
数据集成和转换：将来自不同数据源的数据进行整合和转换，以满足特定的业务需求。
数据清洗和质量控制：通过作业来清洗和验证数据的准确性和完整性，提高数据质量。
实时数据处理：通过作业来处理实时产生的数据，例如日志数据分析、实时监控等。

腾讯云提供了一系列与数据集成相关的产品和服务，其中包括：

数据传输服务（Data Transfer Service）：用于实现不同数据源之间的数据传输和同步，支持多种数据源和目标。
数据集成服务（Data Integration Service）：提供了可视化的数据集成和转换工具，帮助用户快速构建和管理数据集成作业。
数据仓库服务（Data Warehouse Service）：提供了高性能的数据仓库解决方案，支持大规模数据存储和分析。
数据治理服务（Data Governance Service）：用于管理和监控数据集成作业的执行状态和结果，提供错误处理和日志记录功能。

更多关于腾讯云数据集成相关产品和服务的详细介绍，请参考腾讯云官方文档：

相关·内容

NoSQL为什么需要模式自由的ETL工具？

即使是开发人员也不喜欢写乏味的“管道代码”(plumbing code)，这只是将数据从一个地方连接到另一个地方的代码。这样的代码既单调又重复。...但是，如果用户不确定是否可以帮助解决NoSQL灵活架构工具问题的话，用户不相信这个产品，也不会通过Pentaho数据集成使用开源ETL工具。...元数据注入的好处在于用户可以创建单个转换来执行此加载，但是可以通过父转换对其实施参数化。甚至可以在单个作业中配置此父转换项，并在输入数据源列表上循环以执行此项工作。...工作人员在现有的演示销售数据信息上运行了这个功能，并惊奇地发现语义图在发现之后是多么有用。所有主要实体都在语义图上出现在屏幕上，显示出已发现的关系和数据类型，以及关联的强度。...即使在Spark，Python或R中集成机器学习，也只是一个简单的例子，将单个步骤拖放到一个转换上。

1.8K10 0

kettle学习【大牛经验】

可以在Linux、windows、unix中运行。有图形界面，也有命令脚本还可以二次开发。...在转换中要有输入和输出。 ? > 表输入：先配置链接（完成后测试一下是否OK），再输入查询sql（比如：select id from tab2 limit 10;） ? >excel输出。...> 完成转换的配置后保存，在job中引用保存的文件。 ? ? > 完成，结束！进阶实例：百度上看到了一篇关于kettle的作业，但是没有详细的过程。这里以此说明，全图过程如下。 ?...第八步：输出 Linux上部署kettle任务 kettle的"开始"控件虽然可以进行调度，但要求程序一直运行。在实际工作中通常在windos中测试，放到Linux中以crontab的方式进行调度。...补充，在设计流程时我们并不希望出错了作业就停止了，而是继续执行并将错误信息以某种方式反馈出来。这时，我们可以通过“定义错误处理”来实现。 ? 并将错误信息输出，供后续引用。　　　　 ?

4.3K2 1

Kettle教程一：Kettle简介和Kettle的部署安装

2、Kettle简介 Kettle是一款国外开源的ETL工具，纯Java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。...Kettle(现在已经更名为PDI，Pentaho Data Integration-Pentaho数据集成)。...，解压后直接使用无需安装。...;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;” 现在测试环境变量的配置成功与否。...4、打开kettle只需要运行spoon.bat，即可打开spoon图形工具： 5、Kettle目录文件介绍三常见的kettle报错 1、打开kettle后一闪而过就没了可能有如下原因：

65.6K6 7

kettle 教程（一）：简介及入门「建议收藏」

在左边 DB 连接处点击新建。根据提示配置数据库，配置完成后可以点击测试进行验证，这边以 MySQL 为例。在左侧找到表输入（核心对象->输入->表输入），拖到右方。...点击运行，就可以运行这一个转换。运行结束后，我们可以在下方看到运行结果，其中有日志，数据预览等，我们可以看到一共读取了多少条数据，插入更新了多少数据等等。...从左侧依次拖动 START 、转换、成功到右侧，并用线连接起来。双击 START，可以配置作业的运行间隔，这边配置了每小时运行一次。双击转换，选择之前新建的那个转换。...点击运行，就能运行这次作业，点击停止就能停止。在下方执行结果，可以看到运行的日志。这样就完成了一个最简单的作业，每隔1小时，将源表的数据迁移到目标表。...总结 kettle 是一个非常强大的 ETL 工具，通过图形化界面的配置，可以实现数据迁移，并不用开发代码。通过它的作业，kettle 能自动地运行转换。

2.2K2 1

Kettle构建Hadoop ETL实践（二）：安装与配置

当安装成功后，可以再次执行yum grouplist命令，从输出中可以看到已经安装的GNOME Desktop。 ......成功安装后运行 C:\Program Files\RealVNC\VNC Viewer\vncviewer.exe 文件打开VNC Viewer，点击右键菜单中的“New connection...”...注意JNDI只是Kettle指定数据库连接参数的一种方式，数据库连接参数也可以保持在转换或作业的数据库连接对象或资源库里。JNDI数据库连接配置是整个Kettle配置的一部分。...但大多数情况下，开发环境使用的是测试数据库，在把开发好的转换和作业部署到实际生产环境中后，需要更改jdbc.properties的内容，使之指向实际生产数据库。...如果不使用资源库，转换、作业也可以保存在文件里，每一个转换和作业都保存各自的数据库连接。

7.3K3 0

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

同样Kettle对大数据也提供了强大的支持，这体现在转换步骤与作业项的“Big Data”分类中。本例使用的Kettle 8.3版本中所包含的大数据相关步骤有19个，作业项有10个。...保存并成功执行作业后，查看HDFS目录，结果如下。可以看到，weblogs_rebuild.txt文件已从本地导入HDFS的/user/root目录中。每次执行作业会覆盖HDFS中已存在的同名文件。.../warehouse/test.db/weblogs 保存并成功执行作业后，查询test.weblogs表的记录与weblogs_parse.txt文件内容相同。...如果选中，作业将等待每一个作业项完成后再继续下一个作业项，这是Kettle感知Hadoop作业状态的唯一方式。...将作业保存为weblogs_parse_mr.kjb。（4）执行作业并验证输出作业成功执行后检查HDFS的输出文件，结果如下。

5.8K2 0

kettle的基础概念入门、下载、安装、部署

答：Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。　　　　...Kettle(现在已经更名为PDI，Pentaho Data Integration-Pentaho数据集成)。 3、Kettle的结构。 ?...在Window10环境下，双击Spoon.bat即可运行了。 11、Kettle界面简介。 ? ? ? ? 12、Kettle实现，把数据从CSV文件复制到Excel文件。...跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行，这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。...对于kettle的转换，不可能定义一个执行顺序，因为所有步骤都以并发方式执行：当转换启动后，所有步骤都同时启动，从它们的输入跳中读取数据，并把处理过的数据写到输入跳，直到输入跳里不再有数据，就中止步骤的运行

9.7K2 0

「集成架构」2020年最好的15个ETL工具(第二部)

2.2K1 0

01-PDI(Kettle)简介与安装

为什么标题为PDI(Kettle)简介与安装呢，这是因为 Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为：Pentaho Data Integeration，简称“PDI...选择对应的版本后，可以选择不同的Kettle版本（客户端或服务端），一般可使用client-tools版本（可本地安装后直接运行）即可。...在转换的空白处双击，会弹出转换属性元数据每个步骤在输出数据行时都有对字段的描述，这种描述就是数据行的元数据。通常包含如下信息。名称：数据行里的字段名是唯一的数据类型：字段的数据类型。...这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里，我们经常需要处理大量数据，这种高并发低消耗的方式也是ETL工具的核心需求。...对于kettle的转换，不能定义一个执行顺序，因为所有的步骤都是并发方式执行；当转换启动后，所有步骤都同时启动，从它们的输入跳中读取数据，并发处理过的数据写出到输出跳，直到输出跳里不再有数据，就中止步骤的运行

2.1K2 0

6个用于大数据分析的最好工具

用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。...Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。...五、RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。 ?...400多个数据挖掘运营商支持耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。...，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器

9042 0

【性能分析】大数据分析工具

用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。...Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。...五、RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。...强大的可视化引擎，许多尖端的高维数据的可视化建模 12. 400多个数据挖掘运营商支持耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘...，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的；可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行

1.2K5 0

大数据处理分析的六大工具

用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。...Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。...RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。...400多个运营商支持耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。...，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行

3K15 0

Kettle与Hadoop（二）Kettle安装配置

注意JNDI只是Kettle指定数据库连接参数的一种方式，数据库连接参数也可以保持在转换或作业的数据库连接对象里或资源库里。JNDI数据库连接配置是整个Kettle配置的一部分。...但大多数情况下，开发环境使用的是测试数据库，在把开发好的转换和作业部署到实际生产环境中后，需要更改jdbc.properties的内容，使之指向实际生产数据库。...如果不使用资源库，转换、作业也可以保存在文件里，每一个转换和作业都保存各自的数据库连接。...共享对象在概念上和资源库有一些重叠，资源库也可以被用来共享数据库连接和集群服务器的定义。...添加新数据库的JDBC驱动jar包，不会对正在运行的Kettle程序起作用。需要将Kettle程序停止，添加JDBC jar包后再启动才生效。

6.2K5 0

6个用于大数据分析的最好工具

用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。...Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。...五 RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。 ?...400多个数据挖掘运营商支持耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。...，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的；可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行

1.1K5 0

【工具】六大工具帮你做好大数据分析

用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。...Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。...RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。...400多个数据挖掘运营商支持耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。...，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行

9707 0

Spark on YARN 部署实验

只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。 2. 不启动Master和Worker进程提交Spark作业。 3....192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。...将spark自带的与Hadoop集成的jar包上传到hdfs hadoop fs -put /home/grid/spark/lib/spark-assembly-1.5.0-hadoop2.6.0...在yarn的WebUI查看作业的运行情况 http://192.168.56.101:8088/ 正在执行的spark作业如图5所示图5 点击“ApplicationMaster”，进入Spark...thriftserver服务 $SPARK_HOME/sbin/start-thriftserver.sh --master yarn 此时在yarn的WebUI查看应用的运行情况，如图8所示

4054 0

6个用于大数据分析的最好工具

用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。...Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。...五 RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。 ?...400多个数据挖掘运营商支持耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。...，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的；可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行

6982 0

Kettle与Hadoop（四）导入导出Hadoop集群数据

向HDFS导入数据从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/root/big_data目录下。...（3）保存并执行作业，日志如图3所示。 ? 图3 从图3可以看到，作业已经成功执行。（4）检查HDFS，结果如图4所示。 ?...向Hive导入数据从下面的地址下载web日志示例文件，解压缩后的weblogs_parse.txt文件放到Hadoop的/user/grid/目录下。...（3）编辑'Hadoop Copy Files'作业项，如图5所示。 ? 图5 （4）保存并执行作业，日志如图6所示。 ? 图6 从图6可以看到，作业已经成功执行。...图11 说明：在“File”标签指定Hadoop集群和要抽取的HDFS文件；在“Content”标签指定文件的属性，以TAB作为字段分隔符；在“Fields”指定字段属性。

1.2K2 0

10余款ETL工具大全（商业、开源）核心功能对比

IInformatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据，它可以按任意速度在企业内交付数据，具有高性能、高可扩展性、高可用性的特点。...它具有符合 Unicode 的功能，可用于跨团队集成数据，填充数据仓库与数据市场，在连接到其他系统时在代码少量或没有代码的情况下进行维护。...Scriptella 支持跨数据库的 ETL 脚本，并且可以在单个的 ETL 文件中与多个数据源运行。...该项目为处理实时数据提供了一个统一、高通量、低延时的平台。有如下特性： · 通过 O(1) 的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。...· 高吞吐量：即使是非常普通的硬件 kafka 也可以支持每秒数十万的消息。 · 支持通过 kafka 服务器和消费机集群来分区消息。 · 支持 Hadoop 并行数据加载。

9.5K0 0

Pentaho Work with Big Data（三）—— 向Hadoop集群导入数据

向HDFS导入数据 . 从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。...http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?...（3）保存并执行作业，日志如图3所示。图3 从图3可以看到，作业已经成功执行。（4）检查Hadoop，结果如图4所示。...建立一个作业，将文件导入到hive表中。（1）执行下面的HSQL建立一个hive表，从图5可以看到，已经在test库中建立了weblogs表，此时表中没有数据。...（4）保存并执行作业，日志如图7所示。图7 从图7可以看到，作业已经成功执行。（5）查询test.weblogs表，结果如图8所示。

2782 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pentaho数据集成:作业即使在成功后也能继续运行

相关·内容

NoSQL为什么需要模式自由的ETL工具？

kettle学习【大牛经验】

Kettle教程一：Kettle简介和Kettle的部署安装

kettle 教程（一）：简介及入门「建议收藏」

Kettle构建Hadoop ETL实践（二）：安装与配置

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

kettle的基础概念入门、下载、安装、部署

「集成架构」2020年最好的15个ETL工具(第二部)

01-PDI(Kettle)简介与安装

6个用于大数据分析的最好工具

【性能分析】大数据分析工具

大数据处理分析的六大工具

Kettle与Hadoop（二）Kettle安装配置

6个用于大数据分析的最好工具

【工具】六大工具帮你做好大数据分析

Spark on YARN 部署实验

6个用于大数据分析的最好工具

Kettle与Hadoop（四）导入导出Hadoop集群数据

10余款ETL工具大全（商业、开源）核心功能对比

Pentaho Work with Big Data（三）—— 向Hadoop集群导入数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐