Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

531

文章

773779

阅读量

110

订阅数

Pentaho Work with Big Data（五）—— 格式化原始web日志

mapreduce http bash bash 指令面向对象编程

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。一、向HDFS导入示例数据文件将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下（因资源有限，本示例只取了这个文件的前10行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

1660

Hadoop集群安装配置实验

ssh hadoop 面向对象编程 node.js linux

一、环境四台 VirtualBox上的Linux虚机，每台硬盘20G，内存768M。 IP与主机名： 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划： 192.168.56.101做master，运行NameNode和ResourceManager进程。其它三台主机做slave，运行DataNode和NodeManager进程。操作系统：CentOS release 6.4 (Final) java版本：jdk1.7.0_75 hadoop版本：hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh（这里配置了任意两台机器都免密码）（1）分别在四台机器上生成密钥对： cd ~ ssh-keygen -t rsa 然后一路回车（2）在master上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ （3）在slave1上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ （4）在slave2上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ （5）在slave3上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此，免密码ssh配置完成。三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件（1）编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件，添加如下内容，如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>

2022-05-07

4460

使用Oracle with内嵌视图优化一例

面向对象编程云推荐引擎

需求：有分类、物资、分类/物资关系三个表，要求按树的遍历方式查询出分类ID、分类/物资名称、从根到当前节点的路径。一个分类下的物资显示在该分类下，同一级分类按序号排序，一个分类下的物资按创建时间排序。 [sql] view plain copy -- 创建分类表 CREATE TABLE tab_class ( id NUMBER (8) NOT NULL PRIMARY KEY, p_id NUMBER (8) NO

2019-05-25

6210

Oracle 大数据量去重实验

云推荐引擎面向对象编程 sql

[sql] view plain copy -- 环境：64位11.2G -- 一、建立测试表，生成2000万测试数据，其中200万重复 CREATE TABLE test_t ( id NUMBER (8) NOT NULL PRIMARY KEY, name VARCHAR2 (32) ); BEGIN FOR i IN 1 .. 18000000 LOOP INSERT INTO test_t (id, name) V

2019-05-25

1.3K0

Oracle生成某一用户下所有表数据的insert语句

面向对象编程编程算法 sql

功能：生成某一用户下所有数据表数据的insert语句，放入d:\insert.sql文件。

2019-05-25

1.1K0

利用Oracle dbms_pipe实现存储过程之间的通信

tcp/ip 面向对象编程编程算法

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53909694

2019-05-25

6790

ora-22992 通过DBLINK 访问远程CLOB表问题

sql oracle 面向对象编程

在本地用select语句访问远程,如果远程表有CLOB字段的话则会有错:ora-22992; 如果真的想看到clob字段的内容的话就得在本地建立一个表,用下面两条语句: 我刚才试验insert into table select * from remote table成功 remote table含有CLOB 总结：在我的环境中成功（1）create table aaa select * from remote table （2）insert into table select * from remote table

2019-05-25

3K0

Oracle里二进制与十进制的相互转换

sql 面向对象编程 oracle 云推荐引擎

Oracle里有内建函数bin_to_num可以将二进制数转换为十进制数，但这个函数的入参是个数不定的0或1：

2019-05-25

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态