腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏作者
举报
512
文章
708544
阅读量
108
订阅数
订阅专栏
申请加入专栏
全部文章(512)
sql(174)
数据库(147)
云数据库 SQL Server(94)
编程算法(65)
大数据(42)
数据处理(42)
hive(39)
hadoop(37)
http(32)
正则表达式(30)
mysql(30)
oracle(29)
云数据库 Redis(23)
网络安全(18)
bash(17)
regexp(17)
bash 指令(16)
java(15)
linux(15)
存储(15)
spark(15)
数据分析(15)
数据挖掘(14)
unix(14)
tcp/ip(14)
https(14)
字符串(14)
node.js(13)
mongodb(12)
数据(12)
set(11)
apache(10)
云数据库 MongoDB(10)
云推荐引擎(10)
hbase(10)
es(10)
函数(10)
html(9)
mapreduce(9)
网站(9)
分布式(9)
缓存(9)
数据迁移(9)
date(9)
机器学习(8)
xml(8)
postgresql(8)
面向对象编程(8)
数据库管理(8)
专用宿主机(7)
TDSQL MySQL 版(7)
腾讯云测试服务(7)
数据可视化(7)
product(7)
脚本(7)
其他(6)
api(6)
神经网络(6)
深度学习(6)
人工智能(6)
shell(6)
线性回归(6)
schema(6)
部署(6)
测试(6)
内容分发网络 CDN(5)
负载均衡(5)
打包(5)
文件存储(5)
ssh(5)
数据结构(5)
实时数仓(5)
kettle(5)
null(5)
select(5)
table(5)
集群(5)
配置(5)
索引(5)
javascript(4)
jquery(4)
nosql(4)
spring(4)
yarn(4)
zookeeper(4)
Elasticsearch Service(4)
data(4)
insert(4)
redis(4)
row(4)
编码(4)
产品(4)
集合(4)
事务(4)
语法(4)
ios(3)
jar(3)
容器镜像服务(3)
容器(3)
开源(3)
迁移(3)
clickhouse(3)
extract(3)
grid(3)
innodb(3)
rows(3)
session(3)
text(3)
镜像(3)
连接(3)
数据仓库(3)
数据同步(3)
搜索(3)
c++(2)
php(2)
go(2)
ecmascript(2)
ruby on rails(2)
lucene/solr(2)
windows server(2)
负载均衡缓存(2)
日志服务(2)
命令行工具(2)
数据安全(2)
express(2)
sql server(2)
jdbc(2)
决策树(2)
安全(2)
windows(2)
kafka(2)
unicode(2)
alpha(2)
count(2)
csv(2)
db(2)
disk(2)
fetch(2)
h2(2)
ip(2)
key(2)
model(2)
predict(2)
project(2)
substr(2)
xls(2)
对象(2)
后台(2)
解决方案(2)
客户端(2)
命令行(2)
内存(2)
统计(2)
弹性伸缩(1)
官方文档(1)
python(1)
ruby(1)
lua(1)
json(1)
arm(1)
嵌入式(1)
memcached(1)
git(1)
github(1)
搜索引擎(1)
analyzer(1)
centos(1)
apt-get(1)
SSL 证书(1)
数据备份(1)
日志数据(1)
云数据库 MySQL(1)
serverless(1)
parcel(1)
运维(1)
爬虫(1)
yum(1)
推荐系统(1)
rabbitmq(1)
gcc(1)
socket编程(1)
机器人(1)
nest(1)
任务调度(1)
sdn(1)
聚类算法(1)
分类算法(1)
utf8(1)
ascii(1)
学习方法(1)
数据集成(1)
add(1)
amp(1)
apollo(1)
authentication(1)
awk(1)
byte(1)
cat(1)
code(1)
connect(1)
counter(1)
crontab(1)
d3(1)
deadlock(1)
delimiter(1)
digits(1)
etl(1)
factory(1)
greenplum(1)
host(1)
hostname(1)
im(1)
join(1)
matrix(1)
min(1)
monitor(1)
ode(1)
panel(1)
partition(1)
performance(1)
position(1)
proc(1)
production(1)
progress(1)
replace(1)
sentinel(1)
sequence(1)
server(1)
sh(1)
split(1)
state(1)
status(1)
storage(1)
string(1)
swap(1)
system(1)
tar(1)
tree(1)
txt(1)
version(1)
view(1)
zip(1)
备份(1)
变量(1)
程序设计(1)
磁盘(1)
存储过程(1)
代理(1)
服务(1)
服务器(1)
规范化(1)
进程(1)
权限(1)
入门(1)
设计(1)
实践(1)
树形结构(1)
同步(1)
系统(1)
效率(1)
协议(1)
性能(1)
优化(1)
原理(1)
指针(1)
标签(1)
搜索文章
搜索
搜索
关闭
kylin 安装配置实验
http
hive
bash
bash 指令
hadoop
一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1(一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包) master作为hadoop的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager,hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器
用户1148526
2022-05-07
249
0
Zeppelin 安装部署实验
hadoop
spark
http
hive
数据库
一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境: 12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。
用户1148526
2022-05-07
364
0
Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
云数据库 SQL Server
http
hive
大数据
数据库
一、把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblo
用户1148526
2022-05-07
253
0
Pentaho Work with Big Data(四)—— 转换Hive里的数据
hive
http
数据库
sql
1. 建立hive表,导入原始数据,过程参考 http://blog.csdn.net/wzy0623/article/details/51133760 2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表 (1)打开PDI,新建一个作业,如图1所示。
用户1148526
2022-05-07
248
0
Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
http
hadoop
hive
网站
1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。
用户1148526
2022-05-07
271
0
用beeline连接SparkSQL
hive
spark
http
html
jdbc
1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性
用户1148526
2022-05-07
880
0
使用hive查询把访问网络流量会话化
hive
unix
《Hive编程指南》最后一章的Outbrain案例中,有一个把访问网络流量会话化的简单实现,但按照它的查询出来的结果是错的,于是自己重写了一个。 一、问题提出(摘自书中原文) 为了分析网络流量,我们常常希望能够基于各种各样的标准来测量热度。一种方法就是将用户行为分解到会话中,一次会话代表单一的一次“使用”所包含的一系列操作。一个用户在一天内或者一个月中的某几天可以多次访问某个网站,但每一次访问肯定是不一样的。 那么,什么是一个会话呢?一种定义是指相隔不超过30分钟的一连串的页面活动就是一个会话。也就是说,如果你去你的第1个页面,等待5分钟,然后去第2个页面,那么这是相同的会话。又等待25分钟后再到第3页,仍然是相同的会话。再等待1分钟跳转到第4页,这次会话将被打破了,这将不是第4个访问页面了,而是第2个会话中的第一个页面。 一旦我们获得这些中断信息,我们就可以查看会话的属性信息,来看看发生了什么事而导致中断的。常规的方式就是通过会话长度来对链入的页面进行比较。 乍一看,这似乎是一个完美的迭代过程。对于每个页面,保持倒计数,直到你找到第1个页面。但Hive是不支持迭代的。不过,还是可以解决这个问题。可以将这个过程分为4个阶段。 1. 识别哪些页面浏览是会话的初始者,或“起源”页面。 2. 对于每个页面,将其划分到正确的来源页面。 3. 将所有的页面浏览聚合到每个来源页面。 4. 对每个来源页面进行标记,然后计算每个会话的热度。 这种方式将产生一个表,其中每一行都表示一个完整的会话,然后用户就可以查询想知道的信息了。 二、实现过程 1. 设置 首先定义表session_test:
用户1148526
2022-05-07
803
0
Spark 安装配置实验
spark
hive
http
sql
yarn
http://blog.csdn.net/wzy0623/article/details/50681554
用户1148526
2022-05-07
238
0
kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)
hive
大数据
http
云推荐引擎
腾讯云测试服务
1. 配置HiveServer2,在hive-site.xml中添加如下的属性
用户1148526
2022-05-07
759
0
hive 表数据加载、表删除试验
hive
1. 非分区表 (1)load 加载数据 本地文本文件a.txt中有一行'aaa',执行下面的命令。
用户1148526
2022-05-07
1.1K
0
hive安装配置实验
hive
java
xml
apache
linux
一、安装前准备 1. 安装配置Hadoop,见http://blog.csdn.net/wzy0623/article/details/50681554 2. 下载安装包 mysql-5.7.10-linux-glibc2.5-x86_64 apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.38.tar.gz 二、安装MySQL 1. 解压 tar -zxvf mysql-5.7.10-linux-glibc2.5-x86_64.tar.gz 2. 建立软连接 ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86_64 mysql 3. 建立数据目录 mkdir /home/grid/mysql/data 4. 编辑配置文件~/.my.cnf内容如下 [mysqld] basedir=/home/grid/mysql datadir=/home/grid/mysql/data log_error=/home/grid/mysql/data/master.err log_error_verbosity=2 5. 初始化安装,并记下初始密码 mysqld --defaults-file=/home/grid/.my.cnf --initialize 6. 启动MySQL mysqld --defaults-file=/home/grid/.my.cnf --user=grid & 7. 登录MySQL,修改初始密码 mysql -u root -p mysql> ALTER USER USER() IDENTIFIED BY 'new_password'; mysql> exit; 8. 在/etc/profile中添加环境变量 export PATH=$PATH:/home/grid/mysql/bin 三、安装配置hive 1. 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2. 建立软连接 ln -s /home/grid/apache-hive-1.2.1-bin hive 3. 建立临时目录 mkdir /home/grid/hive/iotmp 4. 建立配置文件hive-site.xml cp ~/hive/conf/hive-default.xml.template ~/hive/conf/hive-site.xml 5. 新建配置文件hive-site.xml,内容如下:
用户1148526
2022-05-07
260
0
在Greenplum中自定义操作符
hive
greenplum
null
Greenplum中null是不可比较的,因此也没有类似Hive中的<=>,所谓完全相等比较符。但是,Greenplum中可以创建自定义操作符,实现也很简单:
用户1148526
2021-12-07
597
0
Kettle构建Hadoop ETL实践(八-1):维度表技术
大数据
云数据库 SQL Server
hive
网络安全
sql
前面文章中,我们用Kettle工具实现了Hadoop多维数据仓库的基本功能,如使用Sqoop作业项、SQL脚本、Hadoop file output、ORC output等步骤实现ETL过程,使用Oozie、Start作业项定期执行ETL任务等。本篇将继续讨论常见的维度表技术,以最简单的“增加列”开始,继而讨论维度子集、角色扮演维度、层次维度、退化维度、杂项维度、维度合并、分段维度等基本的维度表技术。这些技术都是在实际应用中经常使用的。在说明这些技术的相关概念和使用场景后,我们以销售订单数据仓库为例,给出Kettle实现和测试过程。
用户1148526
2020-11-12
3.3K
0
Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业
bash
bash 指令
hive
yarn
node.js
一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用。
用户1148526
2020-10-26
5.8K
0
Kettle构建Hadoop ETL实践(六):数据转换与装载
hive
内容分发网络 CDN
编程算法
mapreduce
数据库
本篇重点是针对销售订单示例创建并测试数据装载的Kettle作业和转换。在此之前,先简要介绍数据清洗的概念,并说明如何使用Kettle完成常见的数据清洗工作。由于本示例中Kettle在Hadoop上的ETL实现依赖于Hive,所以之后对Hive做一个概括的介绍,包括它的体系结构、工作流程和优化。最后用完整的的Kettle作业演示如何实现销售订单数据仓库的数据转换与装载。
用户1148526
2020-10-26
3.7K
0
Kettle构建Hadoop ETL实践(四):建立ETL示例模型
hive
日志数据
数据分析
数据处理
数据库
从本篇开始,介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例,说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例,描述业务场景,说明示例中包含的实体和关系,并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表,因此需要了解与Hive创建表相关的技术问题,包括使用Hive建立传统多维数据仓库时,如何选择适当的文件格式,Hive支持哪些表类型,向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上,我们就可以编写Hive的HiveQL脚本,建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。
用户1148526
2020-09-08
1.9K
0
Kettle构建Hadoop ETL实践(三):Kettle对Hadoop的支持
hadoop
hive
mapreduce
大数据
spark
本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持,然后用示例说明Kettle如何连接Hadoop,如何导入导出Hadoop集群上的数据,如何用Kettle执行Hive的HiveQL语句,还会用一个典型的MapReduce转换,说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。
用户1148526
2020-09-02
5.5K
0
Kettle与Hadoop(六)执行HiveQL语句
hive
https
网络安全
https://blog.csdn.net/wzy0623/article/details/106471124#2.%20%E5%90%91Hive%E5%AF%BC%E5%85%A5%E6%95%B0%E6%8D%AE。
用户1148526
2020-06-04
286
0
CDH 6.3.1整合Zeppelin 0.8.2
专用宿主机
hive
云数据库 SQL Server
spark
数据可视化
Zeppelin是一个基于Web的笔记本,可以直接在浏览器中编写代码,对数据进行查询分析并生成报表或图表,做出数据驱动的、交互、协作的文档,并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成,提供的功能有:
用户1148526
2020-03-18
2.1K
0
Hive进行身份证合法性校验
hive
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53893238
用户1148526
2019-05-25
2.9K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档