腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏作者
举报
511
文章
707857
阅读量
108
订阅数
订阅专栏
申请加入专栏
全部文章(511)
sql(174)
数据库(147)
云数据库 SQL Server(94)
编程算法(65)
大数据(42)
数据处理(42)
hive(39)
hadoop(37)
http(32)
正则表达式(30)
mysql(30)
oracle(29)
云数据库 Redis(23)
网络安全(18)
bash(17)
regexp(17)
bash 指令(16)
java(15)
linux(15)
存储(15)
spark(15)
数据分析(15)
数据挖掘(14)
unix(14)
tcp/ip(14)
https(14)
字符串(14)
node.js(13)
mongodb(12)
数据(12)
set(11)
apache(10)
云数据库 MongoDB(10)
云推荐引擎(10)
hbase(10)
es(10)
函数(10)
html(9)
mapreduce(9)
网站(9)
分布式(9)
缓存(9)
数据迁移(9)
date(9)
机器学习(8)
xml(8)
postgresql(8)
面向对象编程(8)
数据库管理(8)
专用宿主机(7)
TDSQL MySQL 版(7)
腾讯云测试服务(7)
数据可视化(7)
product(7)
脚本(7)
其他(6)
api(6)
神经网络(6)
深度学习(6)
人工智能(6)
shell(6)
线性回归(6)
schema(6)
部署(6)
测试(6)
内容分发网络 CDN(5)
负载均衡(5)
打包(5)
文件存储(5)
ssh(5)
数据结构(5)
实时数仓(5)
kettle(5)
null(5)
select(5)
table(5)
集群(5)
配置(5)
索引(5)
javascript(4)
jquery(4)
nosql(4)
spring(4)
yarn(4)
zookeeper(4)
Elasticsearch Service(4)
data(4)
insert(4)
redis(4)
row(4)
编码(4)
产品(4)
集合(4)
事务(4)
语法(4)
ios(3)
jar(3)
容器镜像服务(3)
容器(3)
开源(3)
迁移(3)
clickhouse(3)
extract(3)
grid(3)
innodb(3)
rows(3)
session(3)
text(3)
镜像(3)
连接(3)
数据仓库(3)
数据同步(3)
搜索(3)
c++(2)
php(2)
go(2)
ecmascript(2)
ruby on rails(2)
lucene/solr(2)
windows server(2)
负载均衡缓存(2)
日志服务(2)
命令行工具(2)
数据安全(2)
express(2)
sql server(2)
jdbc(2)
决策树(2)
安全(2)
windows(2)
kafka(2)
unicode(2)
alpha(2)
count(2)
csv(2)
db(2)
disk(2)
fetch(2)
h2(2)
ip(2)
key(2)
model(2)
predict(2)
project(2)
substr(2)
xls(2)
对象(2)
后台(2)
解决方案(2)
客户端(2)
命令行(2)
内存(2)
统计(2)
弹性伸缩(1)
官方文档(1)
python(1)
ruby(1)
lua(1)
json(1)
arm(1)
嵌入式(1)
memcached(1)
git(1)
github(1)
搜索引擎(1)
analyzer(1)
centos(1)
apt-get(1)
SSL 证书(1)
数据备份(1)
日志数据(1)
云数据库 MySQL(1)
serverless(1)
parcel(1)
运维(1)
爬虫(1)
yum(1)
推荐系统(1)
rabbitmq(1)
gcc(1)
socket编程(1)
机器人(1)
nest(1)
任务调度(1)
sdn(1)
聚类算法(1)
分类算法(1)
utf8(1)
ascii(1)
学习方法(1)
数据集成(1)
add(1)
amp(1)
apollo(1)
authentication(1)
awk(1)
byte(1)
cat(1)
code(1)
connect(1)
counter(1)
crontab(1)
d3(1)
deadlock(1)
delimiter(1)
digits(1)
etl(1)
factory(1)
greenplum(1)
host(1)
hostname(1)
im(1)
join(1)
matrix(1)
min(1)
monitor(1)
ode(1)
panel(1)
partition(1)
performance(1)
position(1)
proc(1)
production(1)
progress(1)
replace(1)
sentinel(1)
sequence(1)
server(1)
sh(1)
split(1)
state(1)
status(1)
storage(1)
string(1)
swap(1)
system(1)
tar(1)
tree(1)
txt(1)
version(1)
view(1)
zip(1)
备份(1)
变量(1)
程序设计(1)
磁盘(1)
存储过程(1)
代理(1)
服务(1)
服务器(1)
规范化(1)
进程(1)
权限(1)
入门(1)
设计(1)
实践(1)
树形结构(1)
同步(1)
系统(1)
效率(1)
协议(1)
性能(1)
优化(1)
原理(1)
指针(1)
标签(1)
搜索文章
搜索
搜索
关闭
Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群
hadoop
xml
node.js
大数据
专用宿主机
准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。 实验目的: 配置Kettle连接Hadoop集群的HDFS。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主,运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从,运行DataNode进程。 192.168.56.104安装Pentaho的PDI,安装目录为/root/data-integration。 Hadoop版本:2.7.2 PDI版本:6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤: 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下 在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户 我的Hadoop集群的属主是grid,所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。
用户1148526
2022-05-07
829
0
DBeaver连接hive、impala、phoenix、HAWQ、redis
node.js
数据库
nosql
sql
专用宿主机
伴随着技术的不断发展与进步,我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库,到方兴未艾的MongoDB、Redis、Cassandra等NoSQL产品,再到屡见不鲜的各种大数据组件,如Hive、Impala、HBase、Phoenix、Spark,以及林林总总的时序数据库、全文检索系统、图数据库等等。如果有一个Client,能够连接所有这些数据源,并将常规开发环境(如SQL脚本)都集中在一个GUI中,则必将为技术人员节省大量寻找并熟悉相应工具的时间,从而提高工作效率。正所谓工欲善其事,必先利其器,本篇介绍的DBeaver正是这样一款工具软件。
用户1148526
2020-06-16
6.9K
0
Kettle与Hadoop(九)提交Spark作业
大数据
https
网络安全
专用宿主机
spark
实验环境: Spark History Server: 172.16.1.126
用户1148526
2020-06-11
1.5K
0
CDH 6.3.1整合Zeppelin 0.8.2
专用宿主机
hive
云数据库 SQL Server
spark
数据可视化
Zeppelin是一个基于Web的笔记本,可以直接在浏览器中编写代码,对数据进行查询分析并生成报表或图表,做出数据驱动的、交互、协作的文档,并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成,提供的功能有:
用户1148526
2020-03-18
2.1K
0
在CDH 6.3.1上安装HAWQ 2.4.0
大数据
专用宿主机
CDH 6.3.1集群主机: 172.16.1.124:NameNode、SecondaryNameNode 172.16.1.125:DataNode 172.16.1.126:DataNode 172.16.1.127:DataNode
用户1148526
2020-03-18
541
0
一键式完全删除CDH 6.3.1
专用宿主机
bash
bash 指令
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
用户1148526
2019-11-12
3K
0
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(四)
专用宿主机
数据分析
数据可视化
hadoop
网站
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52352818
用户1148526
2019-05-25
1.1K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档