首页
学习
活动
专区
工具
TVP
发布

Hadoop数据仓库

专栏成员
529
文章
772440
阅读量
110
订阅数
Pentaho Work with Big Data(五)—— 格式化原始web日志
本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。 一、向HDFS导入示例数据文件 将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
1660
Hadoop集群安装配置实验
一、环境 四台 VirtualBox上的Linux虚机,每台硬盘20G,内存768M。 IP与主机名: 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划: 192.168.56.101做master,运行NameNode和ResourceManager进程。其它三台主机做slave,运行DataNode和NodeManager进程。 操作系统:CentOS release 6.4 (Final) java版本:jdk1.7.0_75 hadoop版本:hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java(安装包下载已经到grid用户主目录): cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh(这里配置了任意两台机器都免密码) (1)分别在四台机器上生成密钥对: cd ~ ssh-keygen -t rsa 然后一路回车 (2)在master上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ (3)在slave1上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ (4)在slave2上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ (5)在slave3上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此,免密码ssh配置完成。 三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop(安装包下载已经到grid用户主目录): cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件 (1)编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件,添加如下内容,如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>
用户1148526
2022-05-07
4450
使用Oracle with内嵌视图优化一例
需求: 有分类、物资、分类/物资关系三个表,要求按树的遍历方式查询出分类ID、分类/物资名称、从根到当前节点的路径。 一个分类下的物资显示在该分类下,同一级分类按序号排序,一个分类下的物资按创建时间排序。 [sql] view plain copy -- 创建分类表 CREATE TABLE tab_class ( id NUMBER (8) NOT NULL PRIMARY KEY, p_id NUMBER (8) NO
用户1148526
2019-05-25
6210
Oracle 大数据量去重实验
[sql] view plain copy -- 环境:64位11.2G -- 一、建立测试表,生成2000万测试数据,其中200万重复 CREATE TABLE test_t ( id NUMBER (8) NOT NULL PRIMARY KEY, name VARCHAR2 (32) ); BEGIN FOR i IN 1 .. 18000000 LOOP INSERT INTO test_t (id, name) V
用户1148526
2019-05-25
1.3K0
Oracle生成某一用户下所有表数据的insert语句
功能:生成某一用户下所有数据表数据的insert语句,放入d:\insert.sql文件。
用户1148526
2019-05-25
1.1K0
利用Oracle dbms_pipe实现存储过程之间的通信
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53909694
用户1148526
2019-05-25
6790
ora-22992 通过DBLINK 访问远程CLOB表问题
在本地用select语句访问远程,如果远程表有CLOB字段的话则会有错:ora-22992; 如果真的想看到clob字段的内容的话就得在本地建立一个表,用下面两条语句: 我刚才试验insert into table select * from remote table成功 remote table含有CLOB 总结:在我的环境中成功 (1)create table aaa select * from remote table (2)insert into table select * from remote table
用户1148526
2019-05-25
3K0
Oracle里二进制与十进制的相互转换
Oracle里有内建函数bin_to_num可以将二进制数转换为十进制数,但这个函数的入参是个数不定的0或1:
用户1148526
2019-05-25
1.4K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档