腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏作者
举报
511
文章
707978
阅读量
108
订阅数
订阅专栏
申请加入专栏
全部文章(511)
sql(174)
数据库(147)
云数据库 SQL Server(94)
编程算法(65)
大数据(42)
数据处理(42)
hive(39)
hadoop(37)
http(32)
正则表达式(30)
mysql(30)
oracle(29)
云数据库 Redis(23)
网络安全(18)
bash(17)
regexp(17)
bash 指令(16)
java(15)
linux(15)
存储(15)
spark(15)
数据分析(15)
数据挖掘(14)
unix(14)
tcp/ip(14)
https(14)
字符串(14)
node.js(13)
mongodb(12)
数据(12)
set(11)
apache(10)
云数据库 MongoDB(10)
云推荐引擎(10)
hbase(10)
es(10)
函数(10)
html(9)
mapreduce(9)
网站(9)
分布式(9)
缓存(9)
数据迁移(9)
date(9)
机器学习(8)
xml(8)
postgresql(8)
面向对象编程(8)
数据库管理(8)
专用宿主机(7)
TDSQL MySQL 版(7)
腾讯云测试服务(7)
数据可视化(7)
product(7)
脚本(7)
其他(6)
api(6)
神经网络(6)
深度学习(6)
人工智能(6)
shell(6)
线性回归(6)
schema(6)
部署(6)
测试(6)
内容分发网络 CDN(5)
负载均衡(5)
打包(5)
文件存储(5)
ssh(5)
数据结构(5)
实时数仓(5)
kettle(5)
null(5)
select(5)
table(5)
集群(5)
配置(5)
索引(5)
javascript(4)
jquery(4)
nosql(4)
spring(4)
yarn(4)
zookeeper(4)
Elasticsearch Service(4)
data(4)
insert(4)
redis(4)
row(4)
编码(4)
产品(4)
集合(4)
事务(4)
语法(4)
ios(3)
jar(3)
容器镜像服务(3)
容器(3)
开源(3)
迁移(3)
clickhouse(3)
extract(3)
grid(3)
innodb(3)
rows(3)
session(3)
text(3)
镜像(3)
连接(3)
数据仓库(3)
数据同步(3)
搜索(3)
c++(2)
php(2)
go(2)
ecmascript(2)
ruby on rails(2)
lucene/solr(2)
windows server(2)
负载均衡缓存(2)
日志服务(2)
命令行工具(2)
数据安全(2)
express(2)
sql server(2)
jdbc(2)
决策树(2)
安全(2)
windows(2)
kafka(2)
unicode(2)
alpha(2)
count(2)
csv(2)
db(2)
disk(2)
fetch(2)
h2(2)
ip(2)
key(2)
model(2)
predict(2)
project(2)
substr(2)
xls(2)
对象(2)
后台(2)
解决方案(2)
客户端(2)
命令行(2)
内存(2)
统计(2)
弹性伸缩(1)
官方文档(1)
python(1)
ruby(1)
lua(1)
json(1)
arm(1)
嵌入式(1)
memcached(1)
git(1)
github(1)
搜索引擎(1)
analyzer(1)
centos(1)
apt-get(1)
SSL 证书(1)
数据备份(1)
日志数据(1)
云数据库 MySQL(1)
serverless(1)
parcel(1)
运维(1)
爬虫(1)
yum(1)
推荐系统(1)
rabbitmq(1)
gcc(1)
socket编程(1)
机器人(1)
nest(1)
任务调度(1)
sdn(1)
聚类算法(1)
分类算法(1)
utf8(1)
ascii(1)
学习方法(1)
数据集成(1)
add(1)
amp(1)
apollo(1)
authentication(1)
awk(1)
byte(1)
cat(1)
code(1)
connect(1)
counter(1)
crontab(1)
d3(1)
deadlock(1)
delimiter(1)
digits(1)
etl(1)
factory(1)
greenplum(1)
host(1)
hostname(1)
im(1)
join(1)
matrix(1)
min(1)
monitor(1)
ode(1)
panel(1)
partition(1)
performance(1)
position(1)
proc(1)
production(1)
progress(1)
replace(1)
sentinel(1)
sequence(1)
server(1)
sh(1)
split(1)
state(1)
status(1)
storage(1)
string(1)
swap(1)
system(1)
tar(1)
tree(1)
txt(1)
version(1)
view(1)
zip(1)
备份(1)
变量(1)
程序设计(1)
磁盘(1)
存储过程(1)
代理(1)
服务(1)
服务器(1)
规范化(1)
进程(1)
权限(1)
入门(1)
设计(1)
实践(1)
树形结构(1)
同步(1)
系统(1)
效率(1)
协议(1)
性能(1)
优化(1)
原理(1)
指针(1)
标签(1)
搜索文章
搜索
搜索
关闭
redis全局遍历替换特征字符串
https
http
网络安全
云数据库 Redis
java
需求:将一个redis实例(如10.10.10.1:6379)范围内所有key值中的 .letssing.net 替换为 .kaixinvv.com。
用户1148526
2023-03-08
531
0
MySQL全局遍历替换特征字符串
http
sql
数据库
云数据库 SQL Server
编程算法
需求:将一个MySQL实例(如10.10.10.1:3306)范围内所有字段数据中的 .letssing.net 替换为 .kaixinvv.com。
用户1148526
2023-03-08
1.8K
0
维度模型数据仓库(九) —— 角色扮演维度
http
数据库
sql
(五)进阶技术 4. 角色扮演维度 当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。 本篇将说明两类角色扮演维度的实现,分别是表别名和数据库视图。这两种都使用了MySQL的功能。表别名是在SQL语句里引用维度表多次,每次引用都赋予维度表一个别名。而数据库视图,则是按照事实表需要引用维度表的次数,建立相同数量的视图。 修改数据库模式 使用清单(五)-4-1里的SQL脚本修改数据库模式。分别给数据仓库里的事实表sales_order_fact和源数据库中订单销售表sales_order增加request_delivery_date_sk和request_delivery_date列。图(五)- 4-1 显示了修改后的模式。
用户1148526
2022-12-02
407
0
初学乍练redis:两行shell脚本实现slowlog持久化转储(去重保留历史条目、时间戳格式化)
云数据库 Redis
shell
http
unix
在排查redis性能问题时,从slowlog中找执行缓慢的命令进行优化是一种常规手段。redis slowlog被设计成内存中一个先进先出的队列结构,一旦容量被填满,新的条目就会挤出旧条目。特别是在慢日志较多的情况下,有些问题命令很快就会被刷新出slowlog,从而很难跟踪到。
用户1148526
2022-05-07
1.1K
0
kylin 安装配置实验
http
hive
bash
bash 指令
hadoop
一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1(一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包) master作为hadoop的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager,hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器
用户1148526
2022-05-07
247
0
基于独立Zookeeper集群的Hbase 安装配置实验
hbase
TDSQL MySQL 版
hadoop
zookeeper
http
前面做了基于Hbase自带Zookeeper的安装配置(参考http://blog.csdn.net/wzy0623/article/details/51241641),今天做了个基于独立Zookeeper集群的。 一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 master作为hadoop的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager,hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器 hadoop 2.7.2 hbase 1.2.1 zooeeper 3.4.8 二、安装配置zooeeper
用户1148526
2022-05-07
208
0
重新编译Hadoop 2.7.2 native以支持snappy
hadoop
yum
数据结构
打包
http
问题提出: 在运行kylin sample时出现以下错误: org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support. 造成以上错误的原因是Hadoop的二进制安装包中没有snappy支持,需要手工重新编译。 操作过程: 1. 下载所需要的源码包 snappy-1.1.1.tar.gz protobuf-2.5.0.tar.gz hadoop-2.7.2-src.tar.gz 2. 准备编译环境 yum install svn yum install autoconf automake libtool cmake yum install ncurses-devel yum install openssl-devel yum install gcc* 3. 编译安装snappy # 用root用户执行以下命令 tar -zxvf snappy-1.1.1.tar.gz cd snappy-1.1.1/ ./configure make make install # 查看snappy库文件 ls -lh /usr/local/lib |grep snappy 4. 编译安装protobuf # 用root用户执行以下命令 tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/ ./configure make make install # 查看protobuf版本以测试是否安装成功 protoc --version 5. 编译hadoop native tar -zxvf hadoop-2.7.2-src.tar.gz cd hadoop-2.7.2-src/ mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy
用户1148526
2022-05-07
328
0
Hbase 安装配置实验
hbase
TDSQL MySQL 版
hadoop
http
html
一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.2.1 hbase与hadoop的版本兼容性,参考 http://hbase.apache.org/book.html#basic.prerequisites 二、安装hadoop集群 hadoop 2.7.2 安装,参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装配置hbase 1. 加压缩 tar -zxvf hbase-1.2.1-bin.tar.gz 2. 建立软连接 ln -s hbase-1.2.1 hbase 3. 修改三个配置文件 cd hbase/conf vi hbase-env.sh # 添加以下内容
用户1148526
2022-05-07
323
0
Zeppelin 安装部署实验
hadoop
spark
http
hive
数据库
一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境: 12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。
用户1148526
2022-05-07
363
0
Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
云数据库 SQL Server
http
hive
大数据
数据库
一、把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblo
用户1148526
2022-05-07
253
0
Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集
mapreduce
http
hadoop
bash
bash 指令
本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时,这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据,并且建立一个聚合文件,包含按IP和年月分组的PV数。 关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录,参考 http://blog.csdn.net/wzy0623/article/details/51145570。 一、向HDFS导入示例数据文件 将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下(因资源有限,本示例只取了这个文件的前100行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
384
0
Pentaho Work with Big Data(五)—— 格式化原始web日志
mapreduce
http
bash
bash 指令
面向对象编程
本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。 一、向HDFS导入示例数据文件 将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
136
0
Pentaho Work with Big Data(四)—— 转换Hive里的数据
hive
http
数据库
sql
1. 建立hive表,导入原始数据,过程参考 http://blog.csdn.net/wzy0623/article/details/51133760 2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表 (1)打开PDI,新建一个作业,如图1所示。
用户1148526
2022-05-07
248
0
Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
http
hadoop
hive
网站
1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。
用户1148526
2022-05-07
271
0
Pentaho Work with Big Data(二)—— Kettle提交Spark作业
spark
hadoop
http
bash
bash 指令
实验目的: 配置Kettle向Spark集群提交作业。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主,运行Master进程。 192.168.56.102、192.168.56.103是Spark的从,运行Worker进程。 192.168.56.104安装Pentaho的PDI,安装目录为/home/grid/data-integration。 Hadoop版本:2.7.2 Spark版本:1.5.0 PDI版本:6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤: 1. 在PDI主机上安装Spark客户端 将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机 在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件 (1)在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname (2)编辑spark-env.sh文件,写如下两行,如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark
用户1148526
2022-05-07
431
0
用beeline连接SparkSQL
hive
spark
http
html
jdbc
1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性
用户1148526
2022-05-07
878
0
Spark 安装配置实验
spark
hive
http
sql
yarn
http://blog.csdn.net/wzy0623/article/details/50681554
用户1148526
2022-05-07
236
0
利用sqoop将hive和mysql数据互导简单实验
SSL 证书
jdbc
https
云数据库 SQL Server
http
1. Hadoop、Hive、MySQL安装(略) 2. 下载sqoop http://www.apache.org/dyn/closer.lua/sqoop/1.4.6 3. 解压 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 4. 建立软连接 ln -s sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop 5. 加执行文件路径 export PATH=$PATH:/
用户1148526
2022-05-07
566
0
kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)
hive
大数据
http
云推荐引擎
腾讯云测试服务
1. 配置HiveServer2,在hive-site.xml中添加如下的属性
用户1148526
2022-05-07
759
0
Greenplum 6 安装配置详解
官方文档
http
html
114.112.77.199 master、segment 210.73.209.103 standby master、segment 140.210.73.67 segment
用户1148526
2021-12-07
1.8K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档