Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

531

文章

774044

阅读量

110

订阅数

Data Vault初探（五） —— 定期装载_SQL

数据库 sql unix

说明： 1. 定期装载的周期为每天一次。 2. 每天装载自上次装载后的变化数据 3. 建立源数据库的过渡表用于CDC 4. 建立cdc_time表用于基于时间戳的CDC 5. 因为源库上只有订单销售表有时间属性，所以除了sales_order和sales_order_item拉取变化数据外，其它表都整体拉取到过渡区。实际环境中建议在源表设计上应该有created和last_updated两个时间戳类型的字段。 6. 下表汇总了源库各表的CDC方式

2022-06-14

2200

初学乍练redis：两行shell脚本实现slowlog持久化转储（去重保留历史条目、时间戳格式化）

云数据库 Redis shell http unix

在排查redis性能问题时，从slowlog中找执行缓慢的命令进行优化是一种常规手段。redis slowlog被设计成内存中一个先进先出的队列结构，一旦容量被填满，新的条目就会挤出旧条目。特别是在慢日志较多的情况下，有些问题命令很快就会被刷新出slowlog，从而很难跟踪到。

2022-05-07

1.1K0

使用hive查询把访问网络流量会话化

《Hive编程指南》最后一章的Outbrain案例中，有一个把访问网络流量会话化的简单实现，但按照它的查询出来的结果是错的，于是自己重写了一个。一、问题提出（摘自书中原文）为了分析网络流量，我们常常希望能够基于各种各样的标准来测量热度。一种方法就是将用户行为分解到会话中，一次会话代表单一的一次“使用”所包含的一系列操作。一个用户在一天内或者一个月中的某几天可以多次访问某个网站，但每一次访问肯定是不一样的。那么，什么是一个会话呢？一种定义是指相隔不超过30分钟的一连串的页面活动就是一个会话。也就是说，如果你去你的第1个页面，等待5分钟，然后去第2个页面，那么这是相同的会话。又等待25分钟后再到第3页，仍然是相同的会话。再等待1分钟跳转到第4页，这次会话将被打破了，这将不是第4个访问页面了，而是第2个会话中的第一个页面。一旦我们获得这些中断信息，我们就可以查看会话的属性信息，来看看发生了什么事而导致中断的。常规的方式就是通过会话长度来对链入的页面进行比较。乍一看，这似乎是一个完美的迭代过程。对于每个页面，保持倒计数，直到你找到第1个页面。但Hive是不支持迭代的。不过，还是可以解决这个问题。可以将这个过程分为4个阶段。 1. 识别哪些页面浏览是会话的初始者，或“起源”页面。 2. 对于每个页面，将其划分到正确的来源页面。 3. 将所有的页面浏览聚合到每个来源页面。 4. 对每个来源页面进行标记，然后计算每个会话的热度。这种方式将产生一个表，其中每一行都表示一个完整的会话，然后用户就可以查询想知道的信息了。二、实现过程 1. 设置首先定义表session_test：

2022-05-07

8510

Greenplum 集群性能测试

114.112.77.199 master、segment 210.73.209.103 standby master、segment 140.210.73.67 segment

2021-12-07

7080

Kettle构建Hadoop ETL实践（五）：数据抽取

xml 数据结构编程算法 unix 大数据

本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数据仓库的数据抽取，即ETL过程中的Extract部分。首先简述Kettle中几种抽取数据的组件，然后讲述变化数据捕获（Change Data Capture，CDC），以及Kettle如何支持不同的CDC技术。Hadoop生态圈中的Sqoop工具可以直接在关系数据库和HDFS或Hive之间互导数据，而Kettle支持Sqoop输入、输出作业项。最后我们使用Kettle里的Sqoop作业项以及基于时间戳的CDC转换实现销售订单示例的数据抽取过程，将MySQL中的源数据抽取到Hive的rds数据库中。

2020-10-10

6.6K0

快速安全删除MySQL大表

node.js unix 云数据库 SQL Server 数据库 sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-10-22

5.6K1

MADlib——基于SQL的数据挖掘解决方案（20）——时间序列分析之ARIMA

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79310475

2019-05-25

1K0

基于Hadoop生态圈的数据仓库实践 —— ETL（一）

hive unix 大数据数据库 postgresql

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51804557

2019-05-25

1.7K0

在Kettle里使用时间戳实现变化数据捕获（CDC）

unix 数据库 sql

把current_load时间设置成作业的开始时间。通过“获取系统信息”完成这一功能，在这个步骤里创建一个“系统日期（变）”类型的字段，字段名是sysdate。然后创建一个“插入/更新”步骤，把“获取系统信息”步骤和“插入/更新”步骤连接起来。在“插入/更新”步骤的“更新字段”部分里，用流里的字段“sysdate”去更新表里的字段“current_load”。另外还要设置“用来查询的关键字”部分，把表的“current_load”的条件设置为“is not null”即可。

2019-05-25

3.5K0

初学乍练redis：持久化

云数据库 Redis 文件存储 jquery 缓存 unix

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82464270

2019-05-25

4240

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（六）

ios unix hive xml

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52386016

2019-05-25

6520

四种CDC方案比较

spring unix 数据库 sql

抽取处理需要重点考虑增量抽取，也被称为变化数据捕获，简称CDC。假设一个数据仓库系统，在每天夜里的业务低峰时间从操作型源系统抽取数据，那么增量抽取只需要过去24小时内发生变化的数据。变化数据捕获也是建立准实时数据仓库的关键技术。

2019-05-25

2.9K0

OushuDB入门（五）——ETL篇

内容分发网络 CDN unix 数据库数据处理 sql

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80281643

2019-05-25

1.2K0

初学乍练redis：两行shell脚本实现slowlog持久化转储

云数据库 Redis shell http unix

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/83652539

2019-05-25

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态