pentaho linux部署_pentaho_Pentaho升级项目 - 腾讯云开发者社区

ETL是EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）的简称，实现数据从多个异构数据源加载到数据库或其他目标地址，是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。这里我们聊聊kettle的学习吧（如果你有一定的kettle使用，推荐看看Pentaho Kettle解决方案，这里用kettle实践kimball的数据仓库理论）

您找到你想要的搜索结果了吗？

是的

没有找到

【性能分析】大数据分析工具

大数据处理分析的六大工具

下面请看详细介绍： Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元

015

6个用于大数据分析的最好工具

kettle下载安装使用教程

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

「集成架构」2020年最好的15个ETL工具(第二部)

ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。

6个用于大数据分析的最好工具

大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。一 Hadoop Hadoo

6个用于大数据分析的最好工具

NoSQL为什么需要模式自由的ETL工具？

本文介绍了如何使用Pentaho Data Integration (Kettle) 和Pentaho Business Intelligence (Kibana)实现大数据的加载、转换、分析和可视化。首先介绍了如何使用Kettle从多个数据源加载数据，然后介绍了如何使用Kibana进行数据转换、分析和可视化。最后介绍了如何使用Kettle和Kibana进行大数据处理，包括数据转换、数据清洗、数据集成和数据可视化等。

010

Kettle教程一：Kettle简介和Kettle的部署安装

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于开发或者运维人员来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种ETL工具的使用，必不可少，这里我们要学习的ETL工具就是Kettle！

kettle使用教程(超详细)

这样就算你可以入门了，我相信在不断的探索中你会有更多的心得的。在此也要提醒一点，KETTLE的性能可能会有不稳定的情况出现，所以注意保存你已经做过的东西。

使用kettle迁移oracle 12c数据到mysql (简单例子)

Hitachi Data Systems于2017年改名为Hitachi Vantara 了.

pentaho8.1安装

本文主要介绍pentaho8.1的安装过程，重点介绍pentaho-server的安装。

数据库迁移工具Kettle连接Mysql数据库报错：Driver class ‘org.gjt.mm.mysql.Dr...解决

Java 连接 MySQL 需要驱动包，MySQL驱动包官网下载地址：https://dev.mysql.com/downloads/connector/j/

kettle连接cdh——读取hdfs中的数据

目前pentaho——kettle已经到了8.1的版本了，本文主要介绍如何利用kettle进行大数据处理。

Kettle 添加对应hadoop版本的支持

在hdp的官网上有一个ETL工具叫做Talend Open Studio，然后我就下了，并且在群里询问了一下，突然间冒出来一群ETL高手，经高人指点认识了一款叫做Kettle的软件，经过这两天的试用，从直观感受上，Kettle更容易使用和上手，资料更多，界面更友好。。。优点很多，这里不一一列举了，关键是它对hadoop的支持我觉得是很全面的。　　但是这里面有一个问题出现了，它不支持我现在用的版本，我用的是Hortonworks的HDP1.3，好吧，经过不懈的努力，终于被我搜索到了，哈哈，原来它可以支

Pentaho图表开发指南

注：1、设置每种图时注意该图表的特性（合理装载指标和维度）2，设置维度时可在查询语句中利用连接查询该维度名（即类型名）

kettle设计工具spoon安装问题及解决（Win环境）

1.官网下载 http://community.pentaho.com/projects/data-integration/

hive学习笔记之九：基础UDF

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos 《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶 HiveQL基础内置函数 Sqoop 基础UDF 用户自定义聚合函数(UDAF) UDTF 本篇概览本文是《hive学习笔记》的第九篇，前面学习的内置函数尽管已经很丰富，但未必能满足各种场景下的个性化需求，此时可以开发用户自定义函数（User Defined Func

ETL作业调度工具TASKCTL与kettle功能性对比都有哪些优劣势

Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。通过非常直观的图形化编辑器（Spoon），您可以定义以XML格式储存的流程。在Kettle运行过程中，这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte)，数据库存储库（repository）(Kitchen)或者直接使用IDE(Spoon)。

15个国外顶级的大数据分析工具

嵌入式分析在传统业务应用程序（如HR系统，CRM或ERP）的范围内提供商业智能。这些分析在用户的正常工作流程中提供上下文敏感的决策支持。

Hive导包报错解决：Missing artifact org.pentaho:pentaho-aggdesigner-algorithm:jar:5.1.5-jhyde

F:\Maven\repository\org\pentaho\pentaho-aggdesigner-algorithm\5.1.5-jhyde

kettle环境搭建

1.github上面kettle的源码下载地址:https://github.com/pentaho/pentaho-kettle

知识分享之Java——Maven的settings常用配置文件

日常我们开发时，我们会遇到各种各样的奇奇怪怪的问题（踩坑o(╯□╰)o），这个常见问题系列就是我日常遇到的一些问题的记录文章系列，这里整理汇总后分享给大家，让其还在深坑中的小伙伴有绳索能爬出来。同时在这里也欢迎大家把自己遇到的问题留言或私信给我，我看看其能否给大家解决。

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主，运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从，运行DataNode进程。 192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。 Hadoop版本：2.7.2 PDI版本：6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤： 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户我的Hadoop集群的属主是grid，所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。

Saiku_00_资源帖

一、精选 1.李秋随笔分类 - pentaho 二、概述 1、Saiku + Kylin 多维分析平台探索三、Saiku+Kylin 1、使用Saiku+Kylin构建多维分析OLAP平台 2、使用Saiku+Kylin构建多维分析OLAP平台 3、saiku无缝对接kylin 4、[saiku] 在 Tomcat 下部署 saiku 5、【转】saiku与kylin整合备忘录 6、saiku安装 7.在Tomcat上安装部署SAIKU 四、论坛 1、开源中国-Saiku-问答区

kettle 教程（一）：简介及入门「建议收藏」

kettle 是纯 java 开发，开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面，也有命令脚本还可以二次开发。

问题随记 —— Cannot resolve org.pentaho:pentaho-aggdesigner-algorithm:jar:5.1.5-jhyde

大概位置在这 C:\Users\Administrator\.m2\repository\org\pentaho\pentaho-aggdesigner-algorithm\5.1.5-jhyde

hive学习笔记之九：基础UDF

如果您不想自己搭建kubernetes环境，推荐使用腾讯云容器服务TKE：无需自建，即可在腾讯云上使用稳定，安全，高效，灵活扩展的 Kubernetes 容器平台；

企业实战（20）ETL数据库迁移工具Kettle的安装配置详解

Kettle简介：Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

01-PDI(Kettle)简介与安装

最好的学习资料就是官网，附上官网文档地址： PDI官方文档地址 https://help.hitachivantara.com/Documentation/Pentaho/9.2/Products/Pentaho_Data_Integration

Pentaho CDE详细开发使用手册

3、添加应用的资源（资源类型有CSS和Javascript，导入内容形式有代码或具体文件）

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

一招教你用Kettle整合大数据和Hive,HBase的环境!

上一篇博客《还不会使用大数据ETL工具Kettle，你就真的out了!》博主已经为大家介绍了Kettle简单的使用操作，也确实谈到了后面会出较复杂操作的教程，其中当数与大数据组件之前的一些操作。所以本篇博客，博主为大家带来Kettle集成配置大数据的教程，为下一篇Kettle的进阶操作做铺垫!

Pentaho Work with Big Data（六）—— 使用Pentaho MapReduce生成聚合数据集

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据，并且建立一个聚合文件，包含按IP和年月分组的PV数。关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录，参考 http://blog.csdn.net/wzy0623/article/details/51145570。一、向HDFS导入示例数据文件将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下（因资源有限，本示例只取了这个文件的前100行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

编译Kettle的PDI DB Dialog模块失败

检查了一下下面的地址，发现其下没有小写i的目录，只有大写I的目录，估计是这几天第三方包有改过名字所导致的。

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

大数据平台最常用的30款开源工具

大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据仓库工具无法处理完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的各类技术。

使用kettle来根据时间戳或者批次号来批量导入数据，达到增量的效果。

1、Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。下载图形化界面的zip包格式的，直接解压缩使用即可。安装部署模式这里不说了，自己可以根据自己的需求安装为单机模式或者集群模式。 Kettle的社区官网：https://community.hitachivantara.com/docs/DOC-1009855 Kettle的下载地址：https://sourceforge.net/projects/pentaho/files/Data%20Integration/ kettle国内镜像下载：http://mirror.bit.edu.cn/pentaho/Data%20Integration/ 2、由于这里只是演示了如何配置通过时间戳和批次号增量的导入数据，所以具体的操作不再叙述，具体的使用自己可以根据需求来使用。

印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0

数据是每项技术业务的支柱，作为一个健康医疗技术平台，Halodoc 更是如此，用户可以通过以下方式与 Halodoc 交互：

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐