腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏作者
举报
511
文章
708089
阅读量
108
订阅数
订阅专栏
申请加入专栏
全部文章(511)
sql(174)
数据库(147)
云数据库 SQL Server(94)
编程算法(65)
大数据(42)
数据处理(42)
hive(39)
hadoop(37)
http(32)
正则表达式(30)
mysql(30)
oracle(29)
云数据库 Redis(23)
网络安全(18)
bash(17)
regexp(17)
bash 指令(16)
java(15)
linux(15)
存储(15)
spark(15)
数据分析(15)
数据挖掘(14)
unix(14)
tcp/ip(14)
https(14)
字符串(14)
node.js(13)
mongodb(12)
数据(12)
set(11)
apache(10)
云数据库 MongoDB(10)
云推荐引擎(10)
hbase(10)
es(10)
函数(10)
html(9)
mapreduce(9)
网站(9)
分布式(9)
缓存(9)
数据迁移(9)
date(9)
机器学习(8)
xml(8)
postgresql(8)
面向对象编程(8)
数据库管理(8)
专用宿主机(7)
TDSQL MySQL 版(7)
腾讯云测试服务(7)
数据可视化(7)
product(7)
脚本(7)
其他(6)
api(6)
神经网络(6)
深度学习(6)
人工智能(6)
shell(6)
线性回归(6)
schema(6)
部署(6)
测试(6)
内容分发网络 CDN(5)
负载均衡(5)
打包(5)
文件存储(5)
ssh(5)
数据结构(5)
实时数仓(5)
kettle(5)
null(5)
select(5)
table(5)
集群(5)
配置(5)
索引(5)
javascript(4)
jquery(4)
nosql(4)
spring(4)
yarn(4)
zookeeper(4)
Elasticsearch Service(4)
data(4)
insert(4)
redis(4)
row(4)
编码(4)
产品(4)
集合(4)
事务(4)
语法(4)
ios(3)
jar(3)
容器镜像服务(3)
容器(3)
开源(3)
迁移(3)
clickhouse(3)
extract(3)
grid(3)
innodb(3)
rows(3)
session(3)
text(3)
镜像(3)
连接(3)
数据仓库(3)
数据同步(3)
搜索(3)
c++(2)
php(2)
go(2)
ecmascript(2)
ruby on rails(2)
lucene/solr(2)
windows server(2)
负载均衡缓存(2)
日志服务(2)
命令行工具(2)
数据安全(2)
express(2)
sql server(2)
jdbc(2)
决策树(2)
安全(2)
windows(2)
kafka(2)
unicode(2)
alpha(2)
count(2)
csv(2)
db(2)
disk(2)
fetch(2)
h2(2)
ip(2)
key(2)
model(2)
predict(2)
project(2)
substr(2)
xls(2)
对象(2)
后台(2)
解决方案(2)
客户端(2)
命令行(2)
内存(2)
统计(2)
弹性伸缩(1)
官方文档(1)
python(1)
ruby(1)
lua(1)
json(1)
arm(1)
嵌入式(1)
memcached(1)
git(1)
github(1)
搜索引擎(1)
analyzer(1)
centos(1)
apt-get(1)
SSL 证书(1)
数据备份(1)
日志数据(1)
云数据库 MySQL(1)
serverless(1)
parcel(1)
运维(1)
爬虫(1)
yum(1)
推荐系统(1)
rabbitmq(1)
gcc(1)
socket编程(1)
机器人(1)
nest(1)
任务调度(1)
sdn(1)
聚类算法(1)
分类算法(1)
utf8(1)
ascii(1)
学习方法(1)
数据集成(1)
add(1)
amp(1)
apollo(1)
authentication(1)
awk(1)
byte(1)
cat(1)
code(1)
connect(1)
counter(1)
crontab(1)
d3(1)
deadlock(1)
delimiter(1)
digits(1)
etl(1)
factory(1)
greenplum(1)
host(1)
hostname(1)
im(1)
join(1)
matrix(1)
min(1)
monitor(1)
ode(1)
panel(1)
partition(1)
performance(1)
position(1)
proc(1)
production(1)
progress(1)
replace(1)
sentinel(1)
sequence(1)
server(1)
sh(1)
split(1)
state(1)
status(1)
storage(1)
string(1)
swap(1)
system(1)
tar(1)
tree(1)
txt(1)
version(1)
view(1)
zip(1)
备份(1)
变量(1)
程序设计(1)
磁盘(1)
存储过程(1)
代理(1)
服务(1)
服务器(1)
规范化(1)
进程(1)
权限(1)
入门(1)
设计(1)
实践(1)
树形结构(1)
同步(1)
系统(1)
效率(1)
协议(1)
性能(1)
优化(1)
原理(1)
指针(1)
标签(1)
搜索文章
搜索
搜索
关闭
为已存在的Hadoop集群配置HDFS Federation
hbase
TDSQL MySQL 版
node.js
hadoop
zookeeper
一、实验目的 1. 现有Hadoop集群只有一个NameNode,现在要增加一个NameNode。 2. 两个NameNode构成HDFS Federation。 3. 不重启现有集群,不影响数据访问。 二、实验环境 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 kettle 其中kettle是新增的一台“干净”的机器,已经配置好免密码ssh,将作为新增的NameNode。 软件版本: hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 spark 1.5.0 zookeeper 3.4.8 kylin 1.5.1 现有配置: master作为hadoop的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager,hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器 三、配置步骤 1. 编辑master上的hdfs-site.xml文件,修改后的文件内容如下所示。
用户1148526
2022-05-07
476
0
Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群
hadoop
xml
node.js
大数据
专用宿主机
准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。 实验目的: 配置Kettle连接Hadoop集群的HDFS。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Hadoop集群的主,运行NameNode进程。 192.168.56.102、192.168.56.103是Hadoop的从,运行DataNode进程。 192.168.56.104安装Pentaho的PDI,安装目录为/root/data-integration。 Hadoop版本:2.7.2 PDI版本:6.0 Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554 配置步骤: 1. 启动Hadoop的hdfs 在192.168.56.101上执行以下命令 start-dfs.sh 2. 拷贝Hadoop的配置文件到PDI的相应目录下 在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 下面的配置均在192.168.56.104上执行 3. 在安装PDI的主机上建立访问Hadoop集群的用户 我的Hadoop集群的属主是grid,所以执行以下命令建立相同的用户 useradd -d /home/grid -m grid usermod -G root grid 4. 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 5. 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/ 在config.properties文件中添加如下一行 authentication.superuser.provider=NO_AUTH 把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。
用户1148526
2022-05-07
830
0
Hadoop集群安装配置实验
ssh
hadoop
面向对象编程
node.js
linux
一、环境 四台 VirtualBox上的Linux虚机,每台硬盘20G,内存768M。 IP与主机名: 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划: 192.168.56.101做master,运行NameNode和ResourceManager进程。其它三台主机做slave,运行DataNode和NodeManager进程。 操作系统:CentOS release 6.4 (Final) java版本:jdk1.7.0_75 hadoop版本:hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java(安装包下载已经到grid用户主目录): cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh(这里配置了任意两台机器都免密码) (1)分别在四台机器上生成密钥对: cd ~ ssh-keygen -t rsa 然后一路回车 (2)在master上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ (3)在slave1上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ (4)在slave2上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ (5)在slave3上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此,免密码ssh配置完成。 三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop(安装包下载已经到grid用户主目录): cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件 (1)编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件,添加如下内容,如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>
用户1148526
2022-05-07
415
0
VirtualBox下Linux虚机扩容
linux
jquery
node.js
节后上班第一天,按计划着手搭建hadoop和hive实验环境,还没开始安装就碰到一个坎,JDK安装包解包时报空间不足。原来的四个虚机,每个分配了8G,其中根文件系统6G,做完Fabric实验后空间所剩无几,因此需要扩容。下面记录的就是实际操作步骤。 环境: VirtualBox 5.0.10、CentOS release 6.4 1. 使用下面的命令查看虚拟机的UUID VBoxManage list hdds 结果如图1所示:
用户1148526
2022-05-07
1.9K
0
Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业
bash
bash 指令
hive
yarn
node.js
一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用。
用户1148526
2020-10-26
5.8K
0
DBeaver连接hive、impala、phoenix、HAWQ、redis
node.js
数据库
nosql
sql
专用宿主机
伴随着技术的不断发展与进步,我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库,到方兴未艾的MongoDB、Redis、Cassandra等NoSQL产品,再到屡见不鲜的各种大数据组件,如Hive、Impala、HBase、Phoenix、Spark,以及林林总总的时序数据库、全文检索系统、图数据库等等。如果有一个Client,能够连接所有这些数据源,并将常规开发环境(如SQL脚本)都集中在一个GUI中,则必将为技术人员节省大量寻找并熟悉相应工具的时间,从而提高工作效率。正所谓工欲善其事,必先利其器,本篇介绍的DBeaver正是这样一款工具软件。
用户1148526
2020-06-16
6.9K
0
MySQL高可用之DRBD
node.js
云数据库 SQL Server
tcp/ip
ios
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
用户1148526
2019-11-15
1.6K
0
Galera Cluster for MySQL 详解(二)——安装配置
node.js
云数据库 SQL Server
数据库
sql
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
用户1148526
2019-10-22
3.4K
0
快速安全删除MySQL大表
node.js
unix
云数据库 SQL Server
数据库
sql
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
用户1148526
2019-10-22
5.6K
1
触类旁通Elasticsearch:扩展
es
node.js
网络安全
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/87281895
用户1148526
2019-05-25
444
0
OushuDB入门(一)——安装篇
hadoop
云数据库 SQL Server
node.js
数据库
sql
OushuDB是由Apache HAWQ创始团队基于HAWQ打造的新一代数据仓库(New Data Warehouse)。该产品采用了存储与计算分离技术架构,具有MPP的所有优点,还具有弹性,支持混合工作负载和高扩展性等优点。作为HAWQ的增强版,OushuDB遵循ANSI-SQL标准,兼容Oracle、Greenplum Database和PostgreSQL,提供PB级数据交互式查询能力,提供对主要BI工具的描述性分析和AI支持。
用户1148526
2019-05-25
1.3K
0
触类旁通Elasticsearch:管理
es
缓存
api
node.js
数据备份
(1)创建模板 当待创建的索引与之前的索引有相同的设置和映射时,非常适合使用索引模板。正如其名,索引模板将会用于和预定义名称模式相匹配的索引创建,以确保所有匹配索引的设置一致。例如:
用户1148526
2019-05-25
952
0
HAWQ技术解析(十三) —— 资源管理
yarn
node.js
容器
用户1148526
2018-01-03
1K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档