腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop数据仓库
专栏成员
举报
531
文章
774044
阅读量
110
订阅数
订阅专栏
申请加入专栏
全部文章(531)
sql(175)
数据库(147)
云数据库 SQL Server(94)
编程算法(65)
大数据(42)
数据处理(42)
hive(39)
mysql(39)
hadoop(37)
http(32)
正则表达式(32)
oracle(29)
云数据库 Redis(23)
网络安全(18)
字符串(18)
bash(17)
regexp(17)
bash 指令(16)
存储(16)
脚本(16)
数据(16)
java(15)
linux(15)
spark(15)
数据分析(15)
数据挖掘(14)
unix(14)
tcp/ip(14)
https(14)
node.js(13)
函数(13)
mongodb(12)
set(12)
apache(10)
云数据库 MongoDB(10)
云推荐引擎(10)
缓存(10)
hbase(10)
es(10)
sed(10)
html(9)
mapreduce(9)
网站(9)
分布式(9)
数据迁移(9)
date(9)
机器学习(8)
xml(8)
postgresql(8)
面向对象编程(8)
数据库管理(8)
schema(8)
专用宿主机(7)
TDSQL MySQL 版(7)
腾讯云测试服务(7)
shell(7)
数据可视化(7)
product(7)
测试(7)
索引(7)
其他(6)
api(6)
神经网络(6)
深度学习(6)
人工智能(6)
线性回归(6)
awk(6)
null(6)
table(6)
部署(6)
配置(6)
语法(6)
内容分发网络 CDN(5)
负载均衡(5)
打包(5)
文件存储(5)
ssh(5)
数据结构(5)
实时数仓(5)
kettle(5)
select(5)
集合(5)
集群(5)
事务(5)
javascript(4)
jquery(4)
json(4)
nosql(4)
spring(4)
yarn(4)
zookeeper(4)
Elasticsearch Service(4)
clickhouse(4)
data(4)
insert(4)
it(4)
redis(4)
row(4)
rows(4)
编码(4)
产品(4)
连接(4)
数据同步(4)
数组(4)
搜索(4)
ios(3)
jar(3)
容器镜像服务(3)
容器(3)
开源(3)
kafka(3)
迁移(3)
extract(3)
grid(3)
innodb(3)
ram(3)
session(3)
text(3)
对象(3)
镜像(3)
命令行(3)
数据仓库(3)
统计(3)
c++(2)
php(2)
go(2)
ecmascript(2)
ruby on rails(2)
lucene/solr(2)
windows server(2)
负载均衡缓存(2)
日志服务(2)
命令行工具(2)
数据安全(2)
express(2)
sql server(2)
jdbc(2)
决策树(2)
安全(2)
windows(2)
unicode(2)
alpha(2)
connect(2)
count(2)
csv(2)
db(2)
disk(2)
fetch(2)
h2(2)
ip(2)
key(2)
model(2)
predict(2)
project(2)
substr(2)
txt(2)
xls(2)
变量(2)
服务器(2)
后台(2)
解决方案(2)
客户端(2)
内存(2)
弹性伸缩(1)
官方文档(1)
python(1)
ruby(1)
lua(1)
arm(1)
嵌入式(1)
memcached(1)
git(1)
github(1)
搜索引擎(1)
analyzer(1)
centos(1)
apt-get(1)
SSL 证书(1)
数据备份(1)
日志数据(1)
云数据库 MySQL(1)
serverless(1)
parcel(1)
运维(1)
爬虫(1)
yum(1)
推荐系统(1)
rabbitmq(1)
gcc(1)
socket编程(1)
机器人(1)
nest(1)
任务调度(1)
sdn(1)
聚类算法(1)
分类算法(1)
utf8(1)
ascii(1)
学习方法(1)
数据集成(1)
add(1)
amp(1)
apollo(1)
authentication(1)
byte(1)
cat(1)
code(1)
counter(1)
crontab(1)
d3(1)
deadlock(1)
debezium(1)
delimiter(1)
digits(1)
etl(1)
factory(1)
greenplum(1)
host(1)
hostname(1)
im(1)
init(1)
join(1)
matrix(1)
min(1)
monitor(1)
ode(1)
panel(1)
partition(1)
performance(1)
position(1)
proc(1)
production(1)
progress(1)
replace(1)
sentinel(1)
sequence(1)
server(1)
sh(1)
split(1)
state(1)
status(1)
storage(1)
string(1)
swap(1)
system(1)
tar(1)
thread(1)
timer(1)
tree(1)
version(1)
view(1)
zip(1)
备份(1)
插件(1)
程序(1)
程序设计(1)
磁盘(1)
存储过程(1)
代理(1)
服务(1)
工作(1)
规范化(1)
监控(1)
进程(1)
权限(1)
入门(1)
设计(1)
实践(1)
视频(1)
数据类型(1)
树形结构(1)
同步(1)
系统(1)
效率(1)
协议(1)
性能(1)
优化(1)
原理(1)
指针(1)
标签(1)
搜索文章
搜索
搜索
关闭
Data Vault初探(五) —— 定期装载_SQL
数据库
sql
unix
说明: 1. 定期装载的周期为每天一次。 2. 每天装载自上次装载后的变化数据 3. 建立源数据库的过渡表用于CDC 4. 建立cdc_time表用于基于时间戳的CDC 5. 因为源库上只有订单销售表有时间属性,所以除了sales_order和sales_order_item拉取变化数据外,其它表都整体拉取到过渡区。实际环境中建议在源表设计上应该有created和last_updated两个时间戳类型的字段。 6. 下表汇总了源库各表的CDC方式
用户1148526
2022-06-14
220
0
初学乍练redis:两行shell脚本实现slowlog持久化转储(去重保留历史条目、时间戳格式化)
云数据库 Redis
shell
http
unix
在排查redis性能问题时,从slowlog中找执行缓慢的命令进行优化是一种常规手段。redis slowlog被设计成内存中一个先进先出的队列结构,一旦容量被填满,新的条目就会挤出旧条目。特别是在慢日志较多的情况下,有些问题命令很快就会被刷新出slowlog,从而很难跟踪到。
用户1148526
2022-05-07
1.1K
0
使用hive查询把访问网络流量会话化
hive
unix
《Hive编程指南》最后一章的Outbrain案例中,有一个把访问网络流量会话化的简单实现,但按照它的查询出来的结果是错的,于是自己重写了一个。 一、问题提出(摘自书中原文) 为了分析网络流量,我们常常希望能够基于各种各样的标准来测量热度。一种方法就是将用户行为分解到会话中,一次会话代表单一的一次“使用”所包含的一系列操作。一个用户在一天内或者一个月中的某几天可以多次访问某个网站,但每一次访问肯定是不一样的。 那么,什么是一个会话呢?一种定义是指相隔不超过30分钟的一连串的页面活动就是一个会话。也就是说,如果你去你的第1个页面,等待5分钟,然后去第2个页面,那么这是相同的会话。又等待25分钟后再到第3页,仍然是相同的会话。再等待1分钟跳转到第4页,这次会话将被打破了,这将不是第4个访问页面了,而是第2个会话中的第一个页面。 一旦我们获得这些中断信息,我们就可以查看会话的属性信息,来看看发生了什么事而导致中断的。常规的方式就是通过会话长度来对链入的页面进行比较。 乍一看,这似乎是一个完美的迭代过程。对于每个页面,保持倒计数,直到你找到第1个页面。但Hive是不支持迭代的。不过,还是可以解决这个问题。可以将这个过程分为4个阶段。 1. 识别哪些页面浏览是会话的初始者,或“起源”页面。 2. 对于每个页面,将其划分到正确的来源页面。 3. 将所有的页面浏览聚合到每个来源页面。 4. 对每个来源页面进行标记,然后计算每个会话的热度。 这种方式将产生一个表,其中每一行都表示一个完整的会话,然后用户就可以查询想知道的信息了。 二、实现过程 1. 设置 首先定义表session_test:
用户1148526
2022-05-07
851
0
Greenplum 集群性能测试
unix
114.112.77.199 master、segment 210.73.209.103 standby master、segment 140.210.73.67 segment
用户1148526
2021-12-07
708
0
Kettle构建Hadoop ETL实践(五):数据抽取
xml
数据结构
编程算法
unix
大数据
本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数据仓库的数据抽取,即ETL过程中的Extract部分。首先简述Kettle中几种抽取数据的组件,然后讲述变化数据捕获(Change Data Capture,CDC),以及Kettle如何支持不同的CDC技术。Hadoop生态圈中的Sqoop工具可以直接在关系数据库和HDFS或Hive之间互导数据,而Kettle支持Sqoop输入、输出作业项。最后我们使用Kettle里的Sqoop作业项以及基于时间戳的CDC转换实现销售订单示例的数据抽取过程,将MySQL中的源数据抽取到Hive的rds数据库中。
用户1148526
2020-10-10
6.6K
0
快速安全删除MySQL大表
node.js
unix
云数据库 SQL Server
数据库
sql
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
用户1148526
2019-10-22
5.6K
1
MADlib——基于SQL的数据挖掘解决方案(20)——时间序列分析之ARIMA
unix
arm
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79310475
用户1148526
2019-05-25
1K
0
基于Hadoop生态圈的数据仓库实践 —— ETL(一)
hive
unix
大数据
数据库
postgresql
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51804557
用户1148526
2019-05-25
1.7K
0
在Kettle里使用时间戳实现变化数据捕获(CDC)
unix
数据库
sql
把current_load时间设置成作业的开始时间。通过“获取系统信息”完成这一功能,在这个步骤里创建一个“系统日期(变)”类型的字段,字段名是sysdate。然后创建一个“插入/更新”步骤,把“获取系统信息”步骤和“插入/更新”步骤连接起来。在“插入/更新”步骤的“更新字段”部分里,用流里的字段“sysdate”去更新表里的字段“current_load”。另外还要设置“用来查询的关键字”部分,把表的“current_load”的条件设置为“is not null”即可。
用户1148526
2019-05-25
3.5K
0
初学乍练redis:持久化
云数据库 Redis
文件存储
jquery
缓存
unix
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82464270
用户1148526
2019-05-25
424
0
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(六)
ios
unix
hive
xml
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52386016
用户1148526
2019-05-25
652
0
四种CDC方案比较
spring
unix
数据库
sql
抽取处理需要重点考虑增量抽取,也被称为变化数据捕获,简称CDC。假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。变化数据捕获也是建立准实时数据仓库的关键技术。
用户1148526
2019-05-25
2.9K
0
OushuDB入门(五)——ETL篇
内容分发网络 CDN
unix
数据库
数据处理
sql
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80281643
用户1148526
2019-05-25
1.2K
0
初学乍练redis:两行shell脚本实现slowlog持久化转储
云数据库 Redis
shell
http
unix
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/83652539
用户1148526
2019-05-25
1.3K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档