腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏成员
举报
531
文章
773779
阅读量
110
订阅数
订阅专栏
申请加入专栏
全部文章(531)
sql(174)
数据库(147)
云数据库 SQL Server(94)
编程算法(65)
大数据(42)
数据处理(42)
hive(39)
mysql(38)
hadoop(37)
http(32)
正则表达式(32)
oracle(29)
云数据库 Redis(23)
网络安全(18)
字符串(18)
bash(17)
regexp(17)
bash 指令(16)
存储(16)
脚本(16)
数据(16)
java(15)
linux(15)
spark(15)
数据分析(15)
数据挖掘(14)
unix(14)
tcp/ip(14)
https(14)
node.js(13)
函数(13)
mongodb(12)
set(12)
apache(10)
云数据库 MongoDB(10)
云推荐引擎(10)
缓存(10)
hbase(10)
es(10)
sed(10)
html(9)
mapreduce(9)
网站(9)
分布式(9)
数据迁移(9)
date(9)
机器学习(8)
xml(8)
postgresql(8)
面向对象编程(8)
数据库管理(8)
schema(8)
专用宿主机(7)
TDSQL MySQL 版(7)
腾讯云测试服务(7)
shell(7)
数据可视化(7)
product(7)
测试(7)
索引(7)
其他(6)
api(6)
神经网络(6)
深度学习(6)
人工智能(6)
线性回归(6)
awk(6)
null(6)
table(6)
部署(6)
配置(6)
语法(6)
内容分发网络 CDN(5)
负载均衡(5)
打包(5)
文件存储(5)
ssh(5)
数据结构(5)
实时数仓(5)
kettle(5)
select(5)
集合(5)
集群(5)
事务(5)
javascript(4)
jquery(4)
json(4)
nosql(4)
spring(4)
yarn(4)
zookeeper(4)
Elasticsearch Service(4)
clickhouse(4)
data(4)
insert(4)
it(4)
redis(4)
row(4)
rows(4)
编码(4)
产品(4)
连接(4)
数据同步(4)
数组(4)
搜索(4)
ios(3)
jar(3)
容器镜像服务(3)
容器(3)
开源(3)
kafka(3)
迁移(3)
extract(3)
grid(3)
innodb(3)
ram(3)
session(3)
text(3)
对象(3)
镜像(3)
命令行(3)
数据仓库(3)
c++(2)
php(2)
go(2)
ecmascript(2)
ruby on rails(2)
lucene/solr(2)
windows server(2)
负载均衡缓存(2)
日志服务(2)
命令行工具(2)
数据安全(2)
express(2)
sql server(2)
jdbc(2)
决策树(2)
安全(2)
windows(2)
unicode(2)
alpha(2)
connect(2)
count(2)
csv(2)
db(2)
disk(2)
fetch(2)
h2(2)
ip(2)
key(2)
model(2)
predict(2)
project(2)
substr(2)
txt(2)
xls(2)
变量(2)
服务器(2)
后台(2)
解决方案(2)
客户端(2)
内存(2)
统计(2)
弹性伸缩(1)
官方文档(1)
python(1)
ruby(1)
lua(1)
arm(1)
嵌入式(1)
memcached(1)
git(1)
github(1)
搜索引擎(1)
analyzer(1)
centos(1)
apt-get(1)
SSL 证书(1)
数据备份(1)
日志数据(1)
云数据库 MySQL(1)
serverless(1)
parcel(1)
运维(1)
爬虫(1)
yum(1)
推荐系统(1)
rabbitmq(1)
gcc(1)
socket编程(1)
机器人(1)
nest(1)
任务调度(1)
sdn(1)
聚类算法(1)
分类算法(1)
utf8(1)
ascii(1)
学习方法(1)
数据集成(1)
add(1)
amp(1)
apollo(1)
authentication(1)
byte(1)
cat(1)
code(1)
counter(1)
crontab(1)
d3(1)
deadlock(1)
debezium(1)
delimiter(1)
digits(1)
etl(1)
factory(1)
greenplum(1)
host(1)
hostname(1)
im(1)
init(1)
join(1)
matrix(1)
min(1)
monitor(1)
ode(1)
panel(1)
partition(1)
performance(1)
position(1)
proc(1)
production(1)
progress(1)
replace(1)
sentinel(1)
sequence(1)
server(1)
sh(1)
split(1)
state(1)
status(1)
storage(1)
string(1)
swap(1)
system(1)
tar(1)
tree(1)
version(1)
view(1)
zip(1)
备份(1)
插件(1)
程序(1)
程序设计(1)
磁盘(1)
存储过程(1)
代理(1)
服务(1)
工作(1)
规范化(1)
监控(1)
进程(1)
权限(1)
入门(1)
设计(1)
实践(1)
视频(1)
数据类型(1)
树形结构(1)
同步(1)
系统(1)
效率(1)
协议(1)
性能(1)
优化(1)
原理(1)
指针(1)
标签(1)
搜索文章
搜索
搜索
关闭
Pentaho Work with Big Data(五)—— 格式化原始web日志
mapreduce
http
bash
bash 指令
面向对象编程
本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。 一、向HDFS导入示例数据文件 将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
166
0
Hadoop集群安装配置实验
ssh
hadoop
面向对象编程
node.js
linux
一、环境 四台 VirtualBox上的Linux虚机,每台硬盘20G,内存768M。 IP与主机名: 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划: 192.168.56.101做master,运行NameNode和ResourceManager进程。其它三台主机做slave,运行DataNode和NodeManager进程。 操作系统:CentOS release 6.4 (Final) java版本:jdk1.7.0_75 hadoop版本:hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java(安装包下载已经到grid用户主目录): cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh(这里配置了任意两台机器都免密码) (1)分别在四台机器上生成密钥对: cd ~ ssh-keygen -t rsa 然后一路回车 (2)在master上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ (3)在slave1上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ (4)在slave2上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ (5)在slave3上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此,免密码ssh配置完成。 三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop(安装包下载已经到grid用户主目录): cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件 (1)编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件,添加如下内容,如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>
用户1148526
2022-05-07
446
0
使用Oracle with内嵌视图优化一例
面向对象编程
云推荐引擎
需求: 有分类、物资、分类/物资关系三个表,要求按树的遍历方式查询出分类ID、分类/物资名称、从根到当前节点的路径。 一个分类下的物资显示在该分类下,同一级分类按序号排序,一个分类下的物资按创建时间排序。 [sql] view plain copy -- 创建分类表 CREATE TABLE tab_class ( id NUMBER (8) NOT NULL PRIMARY KEY, p_id NUMBER (8) NO
用户1148526
2019-05-25
621
0
Oracle 大数据量去重实验
云推荐引擎
面向对象编程
sql
[sql] view plain copy -- 环境:64位11.2G -- 一、建立测试表,生成2000万测试数据,其中200万重复 CREATE TABLE test_t ( id NUMBER (8) NOT NULL PRIMARY KEY, name VARCHAR2 (32) ); BEGIN FOR i IN 1 .. 18000000 LOOP INSERT INTO test_t (id, name) V
用户1148526
2019-05-25
1.3K
0
Oracle生成某一用户下所有表数据的insert语句
面向对象编程
编程算法
sql
功能:生成某一用户下所有数据表数据的insert语句,放入d:\insert.sql文件。
用户1148526
2019-05-25
1.1K
0
利用Oracle dbms_pipe实现存储过程之间的通信
tcp/ip
面向对象编程
编程算法
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53909694
用户1148526
2019-05-25
679
0
ora-22992 通过DBLINK 访问远程CLOB表问题
sql
oracle
面向对象编程
在本地用select语句访问远程,如果远程表有CLOB字段的话则会有错:ora-22992; 如果真的想看到clob字段的内容的话就得在本地建立一个表,用下面两条语句: 我刚才试验insert into table select * from remote table成功 remote table含有CLOB 总结:在我的环境中成功 (1)create table aaa select * from remote table (2)insert into table select * from remote table
用户1148526
2019-05-25
3K
0
Oracle里二进制与十进制的相互转换
sql
面向对象编程
oracle
云推荐引擎
Oracle里有内建函数bin_to_num可以将二进制数转换为十进制数,但这个函数的入参是个数不定的0或1:
用户1148526
2019-05-25
1.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档