物化视图实现的特殊数据复制(r11笔记第42天)

今天开发同事碰到一个有些复杂的数据复制需求,想让我帮忙看看能否实现,当然猛一听需求是不可能实现的。不过还是耐着性子和他们讨论了一下,不过我想了下,似乎还是有改进的余地,也算是拨云见雾吧。

目前有一个表做了拆分,即分库分表。在统计业务中还是需要把数据整合起来查询。大体就是下面的架构方式。

源端是一些分库,存在一些不同的用户,里面存放着相同结构的表。数据根据拆分规则进入不同的分库。

目标端是统计业务所用,没有使用OGG,而直接使用物化视图的方式做了数据刷新复制,当然目标端由此就有了相同数量的物化视图,为了让应用端查取方便,于是建立了一个同名的视图,这样就达到了一个基本的数据拆分到整合的过程。

但是数据有一些问题。假设表中存在下面的字段,那么其中一个字段modify_date就是数据记录的修改时间戳。

应用端可以根据这个时间戳来进行数据的统计分析,而且目前来看只有增加和部分修改,没有删除操作,但是恰恰不如意的是,这个字段因为不同产品的期望,目前是可为空的,而对于统计业务来说又是必须的。

对于统计业务来说,不会可以关注精确的时分秒,精确到日即可。于是我们就有了一些讨论。

开发同学

有个疑惑,BI这边是今天取昨天的增量数据,假设今天取数据的时候出错了,过了几天我想修复历史数据,还能知道前天增加了哪些数据吗?

goldengate也是使用主键吗

DBA:

这是两个问题,如果取数的时候出错了,按照目前的数据一致性,那么剩下没有应用到的数据是肯定不会应用到目标库的,所以数据层面的修复是平滑的。

第二个是查看之前增加的历史数据,Oracle有些辅助功能可以实现,不过得看你的需求,不一定能完全实现。

开发同学:

就像现在这个数据,很多modify_date是空的,我们就很想知道2008年01月01日的增量数据

就是每一天的增量,好实现吗?

DBA:

你说的增量是新增的还是修改的也算,新增的那就简单了,可以用分区,如果是修改的,这个还比较麻烦。

那样得确认一点

比如1月1日 新增了100条数据

1月5日,新增了200条数据,

同是修改了1月1日的2条数据。

那这两条数据是算在1月1日还是算在1月5日。

开发同学:

恩·是这个问题,算1月5日的

因为BI这边会按这个时间建分区,虽然1月1日的分区里也有这条数据,但是不会导致丢失,这边可以取最新的使用

DBA:

对,按照时间建分区,分区设置上做一些特定的设置,可以的。(其实就是开启row movement,可以跨分区更新)

但是想起来思路是通,但是这就有两个大问题需要解决了。目标是物化视图刷新,因为物化视图是只读的,如何修改modify_date的值就是个大问题。

如何得到这些增量变化的数据,目前来看,时间的部分只能依赖于系统时间了。但是增量的数据如何鉴别,我一个设想就是根据modify_date来分区。

这样一来,架构方式就是如下的形式:

根据分区的方式,数据就能够区分开来了。但是增量的数据如何鉴别,这是个很实际的问题,这个时候我们就可以联系一些更具体的信息了,那就是物化视图日志,在源端,每个表开启增量刷新,必然要创建一个物化视图日志,这个物化视图日志里面的数据说不上完整,但是有主键ID和基本的时间戳,这就够了。我们可以在增量刷新之前得到一个基本的id列表,然后关联分区的方式修改数据为系统时间,这样一来,数据就会从默认分区流动到指定的分区中。后续供统计分析所用。

看起来不大可能的需求还是有一些的应用场景,估且算是一个特殊的刷新场景吧。

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2017-01-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏文渊之博

时间序列数据库概览

背景 目前对于时序大数据的存储和处理往往采用关系型数据库的方式进行处理,但由于关系型数据库天生的劣势导致其无法进行高效的存储和数据的查询。时序大数据解决方案通...

62960
来自专栏逸鹏说道

SQL Server安全(3/11):主体和安全对象(Principals and Securables)

在保密你的服务器和数据,防备当前复杂的攻击,SQL Server有你需要的一切。但在你能有效使用这些安全功能前,你需要理解你面对的威胁和一些基本的安全概念。这篇...

29040
来自专栏数据和云

无备份情况下恢复MySQL误删的表

小编寄语 想必大家都知道,Oracle ACE李真旭(Roger)是国内最专业的Oracle 数据库恢复专家。但知识都是触类旁通,真正的专家,从来不会局限在一个...

1.4K110
来自专栏CSDN技术头条

【问底】许鹏:使用Spark+Cassandra打造高性能数据分析平台(一)

【导读】笔者(许鹏)看Spark源码的时间不长,记笔记的初衷只是为了不至于日后遗忘。在源码阅读的过程中秉持着一种非常简单的思维模式,就是努力去寻找一条贯穿全局的...

34380
来自专栏微信终端开发团队的专栏

微信 iOS SQLite 源码优化实践

本文将分享在 SQLite 源码上进行的多线程并发、I/O性能优化等,并介绍优化相关的 SQLite 原理。

60900
来自专栏杨建荣的学习笔记

巧用外部表备份历史数据(r5笔记第62天)

在很多的系统中,随着时间的推移,都会沉淀大量的历史数据。一般数据量达到一定程度都会考虑使用分区表来处理。根据业务规则,可能有些历史数据隔一段时间就需要做清理了,...

383120
来自专栏IT大咖说

Sharding-JDBC:分布式微服务数据库访问框架的设计与实现

摘要 当当架构部总监分享分布式微服务数据库访问框架Sharding-JDBC的设计与实现。 ? 互联网领域数据库面临的问题 我们在互联网领域数据库面临的问题主要...

99570
来自专栏杨建荣的学习笔记

一个MySQL死锁问题的反思

很早之前我写过几篇关于MySQL死锁的分析,比如 换个角度看待MySQL死锁的一点简单认识 MySQL死锁的两个小案例 MySQL在RR隔离级别下的unique...

37580
来自专栏IT大咖说

当Facebook创造的cassandra遇上饿了么

摘要 1、饿了么大数据为什么选择cassandra 2、 Cassandra的基本原理 3、饿了么cassandra实践 4、 Cassandra和大数据离线平...

61470
来自专栏祝威廉

如何提高ElasticSearch 索引速度

这篇文章会讲述上面几个参数的原理,以及一些其他的思路。这些参数大体上是朝着两个方向优化的:

15230

扫码关注云+社区

领取腾讯云代金券