腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏成员
举报
530
文章
773094
阅读量
110
订阅数
订阅专栏
申请加入专栏
全部文章(530)
sql(174)
数据库(147)
云数据库 SQL Server(94)
编程算法(65)
大数据(42)
数据处理(42)
hive(39)
mysql(38)
hadoop(37)
http(32)
正则表达式(32)
oracle(29)
云数据库 Redis(23)
网络安全(18)
字符串(18)
bash(17)
regexp(17)
bash 指令(16)
存储(16)
脚本(16)
数据(16)
java(15)
linux(15)
spark(15)
数据分析(15)
数据挖掘(14)
unix(14)
tcp/ip(14)
https(14)
node.js(13)
函数(13)
mongodb(12)
set(12)
apache(10)
云数据库 MongoDB(10)
云推荐引擎(10)
缓存(10)
hbase(10)
es(10)
sed(10)
html(9)
mapreduce(9)
网站(9)
分布式(9)
数据迁移(9)
date(9)
机器学习(8)
xml(8)
postgresql(8)
面向对象编程(8)
数据库管理(8)
schema(8)
专用宿主机(7)
TDSQL MySQL 版(7)
腾讯云测试服务(7)
shell(7)
数据可视化(7)
product(7)
测试(7)
索引(7)
其他(6)
api(6)
神经网络(6)
深度学习(6)
人工智能(6)
线性回归(6)
awk(6)
null(6)
table(6)
部署(6)
配置(6)
语法(6)
内容分发网络 CDN(5)
负载均衡(5)
打包(5)
文件存储(5)
ssh(5)
数据结构(5)
实时数仓(5)
kettle(5)
select(5)
集合(5)
集群(5)
事务(5)
javascript(4)
jquery(4)
json(4)
nosql(4)
spring(4)
yarn(4)
zookeeper(4)
Elasticsearch Service(4)
clickhouse(4)
data(4)
insert(4)
it(4)
redis(4)
row(4)
rows(4)
编码(4)
产品(4)
连接(4)
数据同步(4)
数组(4)
搜索(4)
ios(3)
jar(3)
容器镜像服务(3)
容器(3)
开源(3)
kafka(3)
迁移(3)
extract(3)
grid(3)
innodb(3)
ram(3)
session(3)
text(3)
对象(3)
镜像(3)
命令行(3)
数据仓库(3)
c++(2)
php(2)
go(2)
ecmascript(2)
ruby on rails(2)
lucene/solr(2)
windows server(2)
负载均衡缓存(2)
日志服务(2)
命令行工具(2)
数据安全(2)
express(2)
sql server(2)
jdbc(2)
决策树(2)
安全(2)
windows(2)
unicode(2)
alpha(2)
connect(2)
count(2)
csv(2)
db(2)
disk(2)
fetch(2)
h2(2)
ip(2)
key(2)
model(2)
predict(2)
project(2)
substr(2)
txt(2)
xls(2)
变量(2)
服务器(2)
后台(2)
解决方案(2)
客户端(2)
内存(2)
统计(2)
弹性伸缩(1)
官方文档(1)
python(1)
ruby(1)
lua(1)
arm(1)
嵌入式(1)
memcached(1)
git(1)
github(1)
搜索引擎(1)
analyzer(1)
centos(1)
apt-get(1)
SSL 证书(1)
数据备份(1)
日志数据(1)
云数据库 MySQL(1)
serverless(1)
parcel(1)
运维(1)
爬虫(1)
yum(1)
推荐系统(1)
rabbitmq(1)
gcc(1)
socket编程(1)
机器人(1)
nest(1)
任务调度(1)
sdn(1)
聚类算法(1)
分类算法(1)
utf8(1)
ascii(1)
学习方法(1)
数据集成(1)
add(1)
amp(1)
apollo(1)
authentication(1)
byte(1)
cat(1)
code(1)
counter(1)
crontab(1)
d3(1)
deadlock(1)
debezium(1)
delimiter(1)
digits(1)
etl(1)
factory(1)
greenplum(1)
host(1)
hostname(1)
im(1)
init(1)
join(1)
matrix(1)
min(1)
monitor(1)
ode(1)
panel(1)
partition(1)
performance(1)
position(1)
proc(1)
production(1)
progress(1)
replace(1)
sentinel(1)
sequence(1)
server(1)
sh(1)
split(1)
state(1)
status(1)
storage(1)
string(1)
swap(1)
system(1)
tar(1)
tree(1)
version(1)
view(1)
zip(1)
备份(1)
插件(1)
程序(1)
程序设计(1)
磁盘(1)
存储过程(1)
代理(1)
服务(1)
工作(1)
规范化(1)
监控(1)
进程(1)
权限(1)
入门(1)
设计(1)
实践(1)
视频(1)
数据类型(1)
树形结构(1)
同步(1)
系统(1)
效率(1)
协议(1)
性能(1)
优化(1)
原理(1)
指针(1)
标签(1)
搜索文章
搜索
搜索
关闭
Kettle构建Hadoop ETL实践(四):建立ETL示例模型
hive
日志数据
数据分析
数据处理
数据库
从本篇开始,介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例,说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例,描述业务场景,说明示例中包含的实体和关系,并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表,因此需要了解与Hive创建表相关的技术问题,包括使用Hive建立传统多维数据仓库时,如何选择适当的文件格式,Hive支持哪些表类型,向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上,我们就可以编写Hive的HiveQL脚本,建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。
用户1148526
2020-09-08
2K
0
OushuDB入门(七)——OLAP篇
数据挖掘
数据处理
数据可视化
存储
数据库
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80422836
用户1148526
2019-05-25
1.2K
0
OushuDB入门(五)——ETL篇
内容分发网络 CDN
unix
数据库
数据处理
sql
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80281643
用户1148526
2019-05-25
1.2K
0
联机分析处理简介
数据库
数据结构
大数据
数据处理
数据分析
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,E.F.codd提出了多维数据库和多维分析的概念,即OLAP。
用户1148526
2019-05-25
1.2K
0
HAWQ + MADlib 玩转数据挖掘之(三)——向量
数据处理
用户1148526
2018-01-03
915
0
MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础
数据处理
hadoop
apache
一、MADlib简介 MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据
用户1148526
2018-01-03
2.8K
0
HAWQ + MADlib 玩转数据挖掘之(十二)——模型评估之交叉验证
数据处理
一、交叉验证概述 机器学习技术在应用之前使用“训练+检验”的模式,通常被称作“交叉验证”,如图1所示。 图1 1. 预测模型的稳定性 让我们通过以下几幅图来理解这个问题
用户1148526
2018-01-03
2.5K
0
MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门
数据处理
sql
一、什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,
用户1148526
2018-01-03
1.8K
0
HAWQ + MADlib 玩转数据挖掘之(十)——图算法之单源最短路径
数据处理
本文介绍了计算单源最短路径算法在社交网络中的应用。首先介绍了单源最短路径算法的基本概念和常用算法,然后讨论了社交网络中的最短路径问题,并给出了基于Madlib的算法实现。最后,介绍了如何利用该算法计算两个人之间的最短路径。
用户1148526
2018-01-03
1.3K
0
HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means
数据处理
本文介绍了聚类算法在数据分析中的应用,详细阐述了k-means算法的原理、应用场景和实现过程。同时,通过一个具体的实例,展示了如何通过聚类算法对用户数据进行分析和分类,并基于聚类结果进行营销策略的设计。
用户1148526
2018-01-03
1.3K
0
HAWQ + MADlib 玩转数据挖掘之(七)——关联规则方法之Apriori算法
数据处理
用户1148526
2018-01-03
1.5K
0
HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树
数据处理
一、分类方法简介 1. 分类的概念 数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据
用户1148526
2018-01-03
1.4K
0
HAWQ取代传统数仓实践(十)——维度表技术之杂项维度
数据处理
本文描述了在电商场景中,如何使用阿里云MaxCompute来实现电商订单数据的ETL处理。主要包括了以下步骤:首先在MaxCompute中创建项目,然后使用DataHub模块中的Sqoop组件来实现数据的导入,接着使用DataHub中的Hive表作为外部表,通过Hive SQL进行数据处理。在处理过程中,使用MaxCompute提供的内置函数和UDF进行数据处理,最后将处理后的数据导出到Hdfs。
用户1148526
2018-01-03
1.5K
0
HAWQ + MADlib 玩转数据挖掘之(六)——主成分分析与主成分投影
数据处理
本文介绍了主成分分析(PCA)的基本原理、应用和计算方法,以及如何通过PCA进行降维。作者通过一个实际案例,展示了PCA在数据挖掘和机器学习中的重要作用,并提供了基于Python的PCA函数和投影函数的实现方法。
用户1148526
2018-01-03
1.2K
0
HAWQ + MADlib 玩转数据挖掘之(九)——回归方法之Logistic回归
数据处理
本文介绍了基于逻辑回归的朴素贝叶斯分类器在自然语言处理领域的应用,并提供了实例和代码。
用户1148526
2018-01-03
1.1K
0
HAWQ取代传统数仓实践(八)——维度表技术之角色扮演维度
数据处理
单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度。例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样引用具
用户1148526
2018-01-03
1.4K
0
HAWQ取代传统数仓实践(十六)——事实表技术之迟到的事实
数据处理
一、迟到的事实简介 数据仓库通常建立于一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时,就能够
用户1148526
2018-01-03
1.4K
0
HAWQ取代传统数仓实践(二)——搭建示例模型(MySQL、HAWQ)
数据处理
云数据库 SQL Server
本文通过分析2023年5月15日的腾讯财报数据,从多个方面揭示了腾讯在2023年5月15日所呈现的财务、经营和战略状况。
用户1148526
2018-01-03
1.4K
0
HAWQ取代传统数仓实践(十一)——维度表技术之维度合并
数据处理
有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性。例如,在销售订单示例中,随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中。客户维度的
用户1148526
2018-01-03
872
0
HAWQ取代传统数仓实践(十八)——层次维度
数据处理
一、层次维度简介 大多数维度都具有一个或多个层次。例如,示例数据仓库中的日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次,因
用户1148526
2018-01-03
1.3K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档