腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏作者
举报
507
文章
696221
阅读量
108
订阅数
订阅专栏
申请加入专栏
全部文章
sql
数据库
云数据库 SQL Server
编程算法
大数据
数据处理
hive
hadoop
http
正则表达式
oracle
mysql
云数据库 Redis
网络安全
bash
regexp
bash 指令
java
linux
存储
spark
数据分析
数据挖掘
unix
tcp/ip
https
字符串
node.js
mongodb
set
数据
apache
云数据库 MongoDB
云推荐引擎
hbase
es
函数
html
mapreduce
网站
缓存
数据迁移
date
机器学习
xml
postgresql
分布式
面向对象编程
数据库管理
专用宿主机
TDSQL MySQL 版
腾讯云测试服务
数据可视化
product
其他
api
神经网络
深度学习
人工智能
shell
线性回归
schema
测试
脚本
内容分发网络 CDN
负载均衡
打包
文件存储
ssh
数据结构
实时数仓
kettle
null
select
table
部署
配置
索引
javascript
jquery
nosql
spring
yarn
Elasticsearch Service
insert
redis
row
编码
产品
集合
集群
事务
语法
ios
jar
容器镜像服务
容器
开源
zookeeper
迁移
data
extract
grid
innodb
rows
session
text
镜像
连接
数据仓库
搜索
c++
php
go
ecmascript
ruby on rails
lucene/solr
windows server
负载均衡缓存
日志服务
命令行工具
数据安全
express
sql server
jdbc
决策树
安全
windows
kafka
unicode
alpha
count
csv
db
disk
fetch
h2
ip
key
model
predict
project
substr
xls
对象
解决方案
内存
数据同步
统计
弹性伸缩
官方文档
python
ruby
lua
json
arm
嵌入式
memcached
git
github
搜索引擎
analyzer
centos
apt-get
SSL 证书
数据备份
日志数据
云数据库 MySQL
serverless
parcel
运维
爬虫
yum
推荐系统
rabbitmq
gcc
socket编程
机器人
nest
任务调度
sdn
聚类算法
分类算法
utf8
ascii
学习方法
数据集成
add
amp
apollo
authentication
awk
byte
cat
code
connect
counter
crontab
d3
deadlock
delimiter
digits
etl
factory
greenplum
host
hostname
im
join
matrix
min
monitor
ode
panel
partition
performance
position
proc
production
progress
replace
sentinel
sequence
server
sh
split
state
status
storage
string
swap
system
tar
tree
txt
version
zip
备份
变量
程序设计
磁盘
存储过程
代理
规范化
后台
进程
客户端
命令行
权限
入门
设计
实践
树形结构
同步
系统
效率
协议
性能
优化
原理
指针
标签
搜索文章
搜索
搜索
关闭
Greenplum 实时数据仓库实践(6)——实时数据装载
内容分发网络 CDN
云数据库 SQL Server
数据库
sql
上一篇详细讲解了如何用Canal和Kafka,将MySQL数据实时全量同步到Greenplum。对照本专题第一篇中图1-1的数据仓库架构,我们已经实现了ETL的实时抽取过程,将数据同步到RDS中。本篇继续介绍如何实现后面的数据装载过程。实现实时数据装载的总体步骤可归纳为:
用户1148526
2021-12-29
2.1K
0
Kettle构建Hadoop ETL实践(六):数据转换与装载
hive
内容分发网络 CDN
编程算法
mapreduce
数据库
本篇重点是针对销售订单示例创建并测试数据装载的Kettle作业和转换。在此之前,先简要介绍数据清洗的概念,并说明如何使用Kettle完成常见的数据清洗工作。由于本示例中Kettle在Hadoop上的ETL实现依赖于Hive,所以之后对Hive做一个概括的介绍,包括它的体系结构、工作流程和优化。最后用完整的的Kettle作业演示如何实现销售订单数据仓库的数据转换与装载。
用户1148526
2020-10-26
3.7K
0
基于Hadoop生态圈的数据仓库实践 —— ETL(二)
hive
内容分发网络 CDN
mapreduce
大数据
hadoop
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51837457
用户1148526
2019-05-25
2.1K
0
在Hive上实现SCD
内容分发网络 CDN
hive
http
hadoop
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51508931
用户1148526
2019-05-25
769
0
OushuDB入门(五)——ETL篇
内容分发网络 CDN
unix
数据库
数据处理
sql
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80281643
用户1148526
2019-05-25
1.2K
0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档