开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pentaho/Kettle -获取早于指定日期的文件名的Javascript或java

Pentaho/Kettle是一种开源的数据集成和业务分析工具，它提供了强大的ETL（Extract, Transform, Load）功能，用于从不同的数据源中提取数据、进行转换和加载到目标系统中。Pentaho/Kettle可以通过JavaScript或Java编程语言来实现获取早于指定日期的文件名的功能。

JavaScript实现：

var folderPath = "/path/to/folder";
var specifiedDate = new Date("2022-01-01");

var files = new java.io.File(folderPath).listFiles();
var result = [];

for (var i = 0; i < files.length; i++) {
  var file = files[i];
  var lastModified = new Date(file.lastModified());

  if (lastModified < specifiedDate) {
    result.push(file.getName());
  }
}

result;

Java实现：

import java.io.File;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;

public class GetFilesBeforeDate {
    public static void main(String[] args) {
        String folderPath = "/path/to/folder";
        Date specifiedDate = new Date("2022-01-01");

        File folder = new File(folderPath);
        File[] files = folder.listFiles();
        List<String> result = new ArrayList<>();

        for (File file : files) {
            Date lastModified = new Date(file.lastModified());

            if (lastModified.before(specifiedDate)) {
                result.add(file.getName());
            }
        }

        System.out.println(result);
    }
}

Pentaho/Kettle可以通过JavaScript或Java的脚本步骤来执行自定义的脚本逻辑。以上示例代码可以在Pentaho/Kettle的JavaScript脚本步骤或Java脚本步骤中使用，用于获取指定日期之前的文件名列表。

推荐的腾讯云相关产品：腾讯云对象存储（COS）。腾讯云对象存储（COS）是一种高扩展性、低成本、安全可靠的云端存储服务，适用于存储大规模非结构化数据，如图片、音视频、备份、容灾等。您可以将获取到的文件名列表存储到腾讯云对象存储中，实现数据的长期保存和管理。

腾讯云对象存储产品介绍链接地址：腾讯云对象存储（COS）

相关搜索:Java:如何使用"Java mp3 ID3标签库“或jaudiotagger获取MP3文件的封面文件名如何使用Javascript或Java获取CSV动态改变的实数如何使用javascript或jquery获取日期范围之间的天数如何通过JavaScript获取当前的.php或.html文件名？有没有像php "glob“这样的javascript方法来获取与指定模式匹配的文件名或目录？过滤pyspark dataframe以获取最近N天的行不能正常工作，并返回一些早于指定日期的数据通过从UTC (javascript或moment)获取周、天和小时的组合来获取日期智能可穿戴解决方案新春特惠智能终端解决方案新春特惠智能可穿戴新春特惠

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Kettle与Hadoop（一）Kettle简介

Kettle是一款流行的ETL（Extract-Transform-Load，即数据抽取、转换、装载）工具，并可用来操作Hadoop上的数据。Kettle是用Java语言开发的。它最初的作者Matt Casters原是一名C语言程序员，在着手开发Kettle时还是一名Java小白，但是他仅用了一年时间就开发出了Kettle的第一个版本。虽然有很多不足，但这版毕竟是可用的。使用自己并不熟悉的语言，仅凭一己之力在很短的时间里就开发出了复杂的ETL系统工具，作者的开发能力和实践精神令人十分佩服。后来Pentaho公司获得了Kettle源代码的版权，Kettle也随之更名为Pentaho Data Integration，简称PDI。

02

Kettle工具——Spoon、Kitchen、Pan、Carte

Spoon是Kettle的集成开发环境（IDE）。它基于SWT提供了图形化的用户接口，主要用于ETL的设计。在Kettle安装目录下，有启动Spoon的脚本。如Windows下的Spoon.bat，类UNIX下的spoon.sh。Windows用户还可以通过执行Kettle.exe启动Spoon。Spoon的屏幕截图如图1所示。

01

Kettle构建Hadoop ETL实践（二）：安装与配置

在前一篇里介绍了ETL和Kettle的基本概念，内容偏重于理论。从本篇开始，让我们进入实践阶段。工欲善其事，必先利其器。既然我们要用Kettle构建Hadoop ETL应用，那么先要做的就是安装Kettle。本篇首先阐述选择安装环境所要考虑的因素，之后详细介绍Kettle的安装过程，最后说明Kettle配置文件、启动脚本和JDBC驱动管理。本专题后面的实践部分都是基于这里所安装的Kettle之上完成的。

03

kettle学习【大牛经验】

ETL是EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）的简称，实现数据从多个异构数据源加载到数据库或其他目标地址，是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。这里我们聊聊kettle的学习吧（如果你有一定的kettle使用，推荐看看Pentaho Kettle解决方案，这里用kettle实践kimball的数据仓库理论）

02

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

我在2017年写了一本名为《Hadoop构建数据仓库实践》的书。在这本书中，较为详细地讲解了如何利用Hadoop（Cloudera's Distribution Including Apache Hadoop，CDH）生态圈组件构建传统数据仓库。例如，使用Sqoop从关系数据库全量或增量抽取数据到Hadoop系统，使用Hive进行数据转换和装载处理等等。作为进阶，书中还说明了数据仓库技术中的渐变维、代理键、角色扮演维度、层次维度、退化维度、无事实事实表、迟到事实、累计度量等常见问题在Hadoop上的处理。它们都是通过Hive SQL来实现的，其中有些SQL语句逻辑复杂，可读性也不是很好。

07

Kettle与Hadoop（二）Kettle安装配置

本文描述在CentOS 7.2上安装和运行Kettle 8.3的步骤。

05

kettle的基础概念入门、下载、安装、部署

答：ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少，这里我要学习的ETL工具是Kettle！

02

Kettle教程一：Kettle简介和Kettle的部署安装

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于开发或者运维人员来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种ETL工具的使用，必不可少，这里我们要学习的ETL工具就是Kettle！

06

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

02

07-PDI(Kettle)源码编译8.2.0.0.R版本

博客上有很多关于PDI源码编译的文章，但大多版本较早，或是有些文件已经找不多，本博客基于2021年10月的PDI源码编译过程制作而成，并在编译过程中解决了对应的问题，解决方案放在博客最后。

02

开源ETL工具之Kettle介绍

Kettle是一个Java编写的ETL工具，主作者是Matt Casters，2003年就开始了这个项目，最新稳定版为7.1。 2005年12月，Kettle从2.1版本开始进入了开源领域，一直到4.1版本遵守LGPL协议，从4.2版本开始遵守Apache Licence 2.0协议。 Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为：Pentaho Data Integeration，简称“PDI”。自2017年9月20日起，Pentaho已经被合并于日立集团下的新公司： Hitachi Vantara。总之，Kettle可以简化数据仓库的创建，更新和维护，使用Kettle可以构建一套开源的ETL解决方案。

01

Kettle（PDI）的坑，有点大

网络上有不少Kettle的文章，但实际上都大同小异，都是些非常基础的文章，实际上在使用过程中还有遇到不少的坑，这部分在网上资料比较少，这里主要讲一下我们在使用过程中遇到的各种问题，属于难得的实践经验。

04

kettle下载安装使用教程

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

03

kettle使用教程(超详细)

这样就算你可以入门了，我相信在不断的探索中你会有更多的心得的。在此也要提醒一点，KETTLE的性能可能会有不稳定的情况出现，所以注意保存你已经做过的东西。

02

kettle工具中嵌入java代码_kettle设置变量

插件地址 https://download.csdn.net/download/xukun5137/12267874

03

05-PDI(Kettle)脚本执行

作业和转换可以在图形化界面里执行，但这只是在开发、测试和调试阶段。在开发完成后，需要部署到实际运行环境，在部署阶段，Spoon就很少用到了。

03

kettle学习笔记（三）——kettle资源库、运行方式与日志

资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。

02

kettle工具的介绍和使用

原文地址链接：https://blog.csdn.net/qq_35731570/article/details/71123413

02

01-PDI(Kettle)简介与安装

最好的学习资料就是官网，附上官网文档地址： PDI官方文档地址 https://help.hitachivantara.com/Documentation/Pentaho/9.2/Products/Pentaho_Data_Integration

02

kettle连接cdh——读取hdfs中的数据

目前pentaho——kettle已经到了8.1的版本了，本文主要介绍如何利用kettle进行大数据处理。

02

Kettle安装详细步骤和使用示例

Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

01

kettle在linux定时任务_CentOS（Linux）安装KETTLE教程并配置执行定时任务[通俗易懂]

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

02

一招教你用Kettle整合大数据和Hive,HBase的环境!

上一篇博客《还不会使用大数据ETL工具Kettle，你就真的out了!》博主已经为大家介绍了Kettle简单的使用操作，也确实谈到了后面会出较复杂操作的教程，其中当数与大数据组件之前的一些操作。所以本篇博客，博主为大家带来Kettle集成配置大数据的教程，为下一篇Kettle的进阶操作做铺垫!

04

「集成架构」ETL工具大比拼：Talend vs Pentaho

数据总是巨大的，任何行业都必须存储这些“数据”，因为它带有巨大的信息，从而导致他们的战略规划。正如人们需要房子感到安全一样，数据也必须得到保障。这个数据主页在技术上称为数据仓库。

02

Kettle 添加对应hadoop版本的支持

在hdp的官网上有一个ETL工具叫做Talend Open Studio，然后我就下了，并且在群里询问了一下，突然间冒出来一群ETL高手，经高人指点认识了一款叫做Kettle的软件，经过这两天的试用，从直观感受上，Kettle更容易使用和上手，资料更多，界面更友好。。。优点很多，这里不一一列举了，关键是它对hadoop的支持我觉得是很全面的。　　但是这里面有一个问题出现了，它不支持我现在用的版本，我用的是Hortonworks的HDP1.3，好吧，经过不懈的努力，终于被我搜索到了，哈哈，原来它可以支

07

企业实战（20）ETL数据库迁移工具Kettle的安装配置详解

Kettle简介：Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

01

大数据ETL开发之图解Kettle工具（入门到精通）

ETL (Extract-Transform-Load 的缩写，即数据抽取、转换、装载的过程)，对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种ETL工具的使用，必不可少。

09

ETL工具-Kettle Spoon教程

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，了解并掌握一种etl工具的使用，必不可少，支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现，使用它减少了非常多的研发工作量，提高了我们的工作效率。

01

Kettle在Linux下的使用小记

这里的需求比较简单，可以通过pt-archiver来做，也通过kettle之类工具来做。kettle的话比较重，可支持的数据整型功能也更强大。

02

使用kettle迁移oracle 12c数据到mysql (简单例子)

Hitachi Data Systems于2017年改名为Hitachi Vantara 了.

01

使用kettle来根据时间戳或者批次号来批量导入数据，达到增量的效果。

1、Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。下载图形化界面的zip包格式的，直接解压缩使用即可。安装部署模式这里不说了，自己可以根据自己的需求安装为单机模式或者集群模式。 Kettle的社区官网：https://community.hitachivantara.com/docs/DOC-1009855 Kettle的下载地址：https://sourceforge.net/projects/pentaho/files/Data%20Integration/ kettle国内镜像下载：http://mirror.bit.edu.cn/pentaho/Data%20Integration/ 2、由于这里只是演示了如何配置通过时间戳和批次号增量的导入数据，所以具体的操作不再叙述，具体的使用自己可以根据需求来使用。

01

【数据迁移工具】使用 kettle数据迁移从oracle到mysql的图文教程

在工作中，我们有时候会遇到这种情况。老系统或其他系统使用的数oracle数据库，现在使用新系统，需要使用mysql数据库。但是之前数据也要迁移过来。那么这种请求下怎么办呢？我们可以使用kettle来进行数据迁移。

02

kettle环境搭建

1.github上面kettle的源码下载地址:https://github.com/pentaho/pentaho-kettle

06

kettle 教程（一）：简介及入门「建议收藏」

kettle 是纯 java 开发，开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面，也有命令脚本还可以二次开发。

02

kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

1. 配置HiveServer2，在hive-site.xml中添加如下的属性

02

kettle设计工具spoon安装问题及解决（Win环境）

1.官网下载 http://community.pentaho.com/projects/data-integration/

03

数据库迁移工具Kettle连接Mysql数据库报错：Driver class ‘org.gjt.mm.mysql.Dr...解决

Java 连接 MySQL 需要驱动包，MySQL驱动包官网下载地址：https://dev.mysql.com/downloads/connector/j/

01

各种开源数据库同步工具汇总

Oracle GoldenGate 是一款实时访问、基于日志变化捕捉数据，并且在异构平台之间迚行数据传输的产品。GoldenGate TDM是一种基于软件的数据复制方式，它从数据库的日志解析数据的变化（数据量只有日志的四分之一左右）。GoldenGate TDM将数据变化转化为自己的格式，直接通过TCP/IP网络传输，无需依赖于数据库自身的传递方式，而且可以通过高达10:1的压缩率对数据迚行压缩，可以大大降低带宽需求。在目标端，GoldenGate TDM可以通过交易重组，分批加载等技术手段大大加快数据投递的速度和效率，降低目标系统的资源占用，可以在亚秒级实现大量数据的复制，并且目标端数据库是活动的。

02

Kettle使用小结

‍♂️简介：Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，绿色无需安装，数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件，transformation 和 job

04

Kettle构建Hadoop ETL实践（五）：数据抽取

本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数据仓库的数据抽取，即ETL过程中的Extract部分。首先简述Kettle中几种抽取数据的组件，然后讲述变化数据捕获（Change Data Capture，CDC），以及Kettle如何支持不同的CDC技术。Hadoop生态圈中的Sqoop工具可以直接在关系数据库和HDFS或Hive之间互导数据，而Kettle支持Sqoop输入、输出作业项。最后我们使用Kettle里的Sqoop作业项以及基于时间戳的CDC转换实现销售订单示例的数据抽取过程，将MySQL中的源数据抽取到Hive的rds数据库中。

03

【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中

1）根据 source 和 db 字段来获取 MongoDB 集合内 business_time 最大值。

03

etl调度工具必备的10个功能属性

taskctl是一款国内开源的ETL工具，纯C编写，可以在Window、Linux、Unix上运行。

03

完美生成年度节假日表，Kettle还能这么玩!

写在前面：博主是一名大数据初学者，昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白，写博客一方面是为了记录自己的学习历程，一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限，博客中难免会有一些错误，有纰漏之处恳请各位大佬不吝赐教！个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/ 尽管当前水平可能不及各位大佬，但我还是希望自己能够做得更好，因为一天的生活就是一生的缩影。我

02

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

01

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

03

kettle教程（1）简单入门、kettle简单插入与更新。打开kettle

本文要点：Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新：kettle会自动对比用户设置的对比字段，若目标表不存在该字段，则新插入该条记录。若存在，则更新。

01

kettle将postgresql数据导入cassandra提示InvalidQueryException: UUID should be 16 or 0 bytes (36)

本文使用的postgresql-12，cassandra 3.x，pentaho kettle为9.1版本，转换图如下图所示：

02

Kettle与Hadoop（三）连接Hadoop

Kettle可以与Hadoop协同工作。让我们从简单的开始，本文介绍如何配置Kettle访问Hadoop集群（HDFS、MapReduce、Zookeeper、Oozie等），以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。

02

使用kellte（ETL工具）对数据的抽取、迁移等操作（入门安装篇）

Kettle简介：Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。（引用百度百科）

02

kettle学习笔记（一）——入门与安装

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭