专栏首页杨建荣的学习笔记物化视图实现的特殊数据复制(r11笔记第42天)

物化视图实现的特殊数据复制(r11笔记第42天)

今天开发同事碰到一个有些复杂的数据复制需求,想让我帮忙看看能否实现,当然猛一听需求是不可能实现的。不过还是耐着性子和他们讨论了一下,不过我想了下,似乎还是有改进的余地,也算是拨云见雾吧。

目前有一个表做了拆分,即分库分表。在统计业务中还是需要把数据整合起来查询。大体就是下面的架构方式。

源端是一些分库,存在一些不同的用户,里面存放着相同结构的表。数据根据拆分规则进入不同的分库。

目标端是统计业务所用,没有使用OGG,而直接使用物化视图的方式做了数据刷新复制,当然目标端由此就有了相同数量的物化视图,为了让应用端查取方便,于是建立了一个同名的视图,这样就达到了一个基本的数据拆分到整合的过程。

但是数据有一些问题。假设表中存在下面的字段,那么其中一个字段modify_date就是数据记录的修改时间戳。

应用端可以根据这个时间戳来进行数据的统计分析,而且目前来看只有增加和部分修改,没有删除操作,但是恰恰不如意的是,这个字段因为不同产品的期望,目前是可为空的,而对于统计业务来说又是必须的。

对于统计业务来说,不会可以关注精确的时分秒,精确到日即可。于是我们就有了一些讨论。

开发同学

有个疑惑,BI这边是今天取昨天的增量数据,假设今天取数据的时候出错了,过了几天我想修复历史数据,还能知道前天增加了哪些数据吗?

goldengate也是使用主键吗

DBA:

这是两个问题,如果取数的时候出错了,按照目前的数据一致性,那么剩下没有应用到的数据是肯定不会应用到目标库的,所以数据层面的修复是平滑的。

第二个是查看之前增加的历史数据,Oracle有些辅助功能可以实现,不过得看你的需求,不一定能完全实现。

开发同学:

就像现在这个数据,很多modify_date是空的,我们就很想知道2008年01月01日的增量数据

就是每一天的增量,好实现吗?

DBA:

你说的增量是新增的还是修改的也算,新增的那就简单了,可以用分区,如果是修改的,这个还比较麻烦。

那样得确认一点

比如1月1日 新增了100条数据

1月5日,新增了200条数据,

同是修改了1月1日的2条数据。

那这两条数据是算在1月1日还是算在1月5日。

开发同学:

恩·是这个问题,算1月5日的

因为BI这边会按这个时间建分区,虽然1月1日的分区里也有这条数据,但是不会导致丢失,这边可以取最新的使用

DBA:

对,按照时间建分区,分区设置上做一些特定的设置,可以的。(其实就是开启row movement,可以跨分区更新)

但是想起来思路是通,但是这就有两个大问题需要解决了。目标是物化视图刷新,因为物化视图是只读的,如何修改modify_date的值就是个大问题。

如何得到这些增量变化的数据,目前来看,时间的部分只能依赖于系统时间了。但是增量的数据如何鉴别,我一个设想就是根据modify_date来分区。

这样一来,架构方式就是如下的形式:

根据分区的方式,数据就能够区分开来了。但是增量的数据如何鉴别,这是个很实际的问题,这个时候我们就可以联系一些更具体的信息了,那就是物化视图日志,在源端,每个表开启增量刷新,必然要创建一个物化视图日志,这个物化视图日志里面的数据说不上完整,但是有主键ID和基本的时间戳,这就够了。我们可以在增量刷新之前得到一个基本的id列表,然后关联分区的方式修改数据为系统时间,这样一来,数据就会从默认分区流动到指定的分区中。后续供统计分析所用。

看起来不大可能的需求还是有一些的应用场景,估且算是一个特殊的刷新场景吧。

本文分享自微信公众号 - 杨建荣的学习笔记(jianrong-notes),作者:杨建荣

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-01-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一个复杂的数据需求的创新优化(r12笔记第96天))

    今天处理了一个蛮有意思的案例,正如我给开发同学所说的那样,方案有很多,但是我们需要明确需求之后,找到一个最合适的需求。 业务同学反馈,数据库中有...

    jeanron100
  • 关于数据质量的思考

    最近和几个同事聊了下关于数据的一些问题,有一个问题引起了我的好奇。那就是数仓体系和大数据体系的数据质量差异。

    jeanron100
  • 一个跨平台数据迁移的方案优化

    如果有一套环境,业务优先级很高,服务器的服役时间比我工作时间都长,现在需要迁移到X86平台,而且经过评估,如果能够升级数据库的软件版本,可以使用到更多的特...

    jeanron100
  • 漫话:如何给女朋友解释什么是"大案牍术"?

    导读:听说最近《长安十二时辰》比较火,于是趁着一个周末赶紧补一补剧。相信很多人都对其中的"大案牍术"比较感兴趣。

    华章科技
  • 他怎么追个剧都能看出「大数据」来?

    听说最近《长安十二时辰》比较火,于是趁着一个周末赶紧补一补剧。相信很多人都对其中的"大案牍术"比较感兴趣,靖安司说"大案牍术"选中了张小敬。

    Java3y
  • 中科院方向东博士:生命大数据开始进入寻常百姓生活

    数据猿导读 在国家战略需求层面,生命大数据研究正如火如荼的开展起来,为精准医学研究打下基础。可以预见,在三到五年内,将会产生大量中国人群的各类生命大数据以及对应...

    数据猿
  • 你造吗?这才是大数据项目成功的七大秘密

    大数据项目的成功有哪些法宝?又有哪些陷阱会导致大数据项目的失败?本文中的三位专家将对此进行详解。 如今,许多企业都理解了大数据的构成,但是要取得大数据项目的成功...

    CSDN技术头条
  • 视图——机房收费系统

    在第一次做机房收费系统时,学生信息和卡的信息是在同一张表中的,而机房收费系统重构时,对数据库进行了重新设计,学生信息和卡的信息被分到了单独的两张表中(遵照三范...

    令仔很忙
  • 【音频栏目上线】大数据新闻周报 2016.2.29

    大数据文摘
  • 推荐收藏 | 100个数据分析常用指标和术语

    有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把...

    用户2769421

扫码关注云+社区

领取腾讯云代金券