首页
学习
活动
专区
工具
TVP
发布

别先生

爱生活,爱工作。
专栏作者
588
文章
1117461
阅读量
64
订阅数
kettle的作业和参数组件
1、大多数ETL项目都需要完成各种各样的维护工作。例如,如何传送文件;验证数据库表是否存在,等等。而这些操作都是按照一定顺序完成。
别先生
2020-02-26
2.2K0
kettle的输出组件
1、输出是转换里面的第二个分类。输出属于ETL的L,L就是Load加载。微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。xls:2007年之前。xlsx:2007年之后。
别先生
2020-02-24
7440
kettle的基础概念入门、下载、安装、部署
  答:ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我要学习的ETL工具是Kettle!
别先生
2020-02-18
9.3K0
kettle基础概念的学习
1、转换。Kettle在运行转换的时候,根据用户的设置,可以将数据以不同的方式发送到多个数据流中。 注意:有两种基本发送方式,即分发和复制,分发类似于发扑克牌,以轮流的方式将每行数据只发给一个数据流。复制是将一行数据发给所有数据流。
别先生
2019-06-03
1.2K0
统计各个数据库的各个数据表的总数,然后写入到excel中
1、最近项目基本进入最后阶段了,然后会统计一下各个数据库的各个数据表的数据量,开始使用的报表工具,report-designer,开源的,研究了两天,发现并不是很好使,最后自己下班回去,晚上思考,想着还不如自己做一个,领导下命令,说这个活给你了,你做好给经理就行了。然后就开始不断的做。思路大概如下所示:
别先生
2018-10-09
2K0
Encountered IOException running import job: org.apache.hadoop.mapred.FileAlreadyExistsException: Out
1、当时初学Sqoop的时候,mysql导入到hdfs导入命令执行以后,在hdfs上面没有找到对应的数据,今天根据这个bug,顺便解决这个问题吧,之前写的http://www.cnblogs.com/biehongli/p/8039128.html。 1 [hadoop@slaver1 sqoop-1.4.5-cdh5.3.6]$ bin/sqoop import \ 2 > --connect jdbc:mysql://slaver1:3306/test \ 3 > --username root
别先生
2018-05-28
1.5K0
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
本文介绍了如何在Windows系统下配置Hadoop环境,并实现通过Java操作HBase进行数据表创建、删除、更新和查询。主要包括了配置环境变量、配置Hadoop、创建HBase表、使用HBase Java API进行操作等步骤。在开发过程中需要注意一些细节,例如环境变量配置、HBase和Hadoop的版本适配问题等。通过本文的介绍,可以帮助开发人员快速搭建起一套可运行的Hadoop和HBase集成环境,为进一步的Hadoop和HBase应用开发提供支持。
别先生
2018-01-02
1.3K0
大数据平台网站日志分析系统
本文介绍了大数据时代,网站日志分析对于网站运营的重要性,并介绍了一般的大数据日志分析系统架构,包括数据采集、数据预处理、数据仓库、数据导出、数据可视化和流程调度等模块。同时,本文还介绍了一个具体的大数据处理案例,包括使用Flume和Hive等开源框架进行网站日志分析的过程,以及使用Hadoop、Sqoop等工具进行数据处理和可视化的技术细节。
别先生
2018-01-02
2.5K0
一脸懵逼学习Storm---(一个开源的分布式实时计算系统)
Storm的官方网址:http://storm.apache.org/index.html 1:什么是Storm?  Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。被称作
别先生
2018-01-02
1.5K0
一脸懵逼学习HBase---基于HDFS实现的。(Hadoop的数据库,分布式的,大数据量的,随机的,实时的,非关系型数据库)
1:HBase官网网址:http://hbase.apache.org/ 2:HBase表结构:建表时,不需要指定表中的字段,只需要指定若干个列族,插入数据时,列族中可以存储任意多个列(即KEY-VA
别先生
2018-01-02
1.4K0
hadoop集群运行jps命令以后Datanode节点未启动的解决办法
该文讲述了在Hadoop集群运行时,可能会遇到DataNode节点未启动的问题。该问题可能是由于集群ID不一致导致的。文章提供了两个解决方法:1.修改core-site.xml文件,将集群ID设置为相同的值;2.删除hdfs-site.xml和core-site.xml两个文件,重新执行格式化命令,然后启动集群。
别先生
2018-01-02
2.7K0
大数据云计算学习路线图(纯属个人看法和观点)
别先生
2018-01-02
2.3K0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档