海量数据迁移之冲突数据筛查(r2 第1天)

对于数据迁移来说,无论准备工作准备的多么充分,在测试和正式生产环境中,心里还是会对冲突的数据有一些疑虑,心里感觉没底,因为生产的数据也是在不断变化的,要迁移的数据也在做相应的改动,在这样的环境中,其实数据抽取的工作还是顾虑比较少的,只要侧重考虑性能的提升,而在于数据加载的过程中,如果出现主键冲突的字段,不仅会严重拖慢加载的速度,关键对于这些数据的处理,让开发和dba都很头疼,开发需要dba来提供详尽的信息,dba则需要多个team之间进行协调。可能会有一些紧急的数据更改任务,数据的稽核等等。。 对于主键相关的数据排查,如果在数据迁移前能够发现,是最好的了,这样可以极大的减少dba的工作量。 个人就是在这种窘境中这样设想了一个方法,首先通过查询主键信息,得到主键索引相关的列,然后通过Intersect来查询那些主键字段的数据在生产和迁移库上有冲突,这个过程可以创建一个临时的用户来加载外部表,所以省去了创建额外的数据空间,而且可以考虑在备库上执行。排查的过程中因为走了索引扫描,所以查询比较的时候速度还是比较可观的。 基本思路就是通过如下的sql语句来找到冗余的数据。 select xxxxx,xxxxx,xxxx from source_schema.table_01 --加载外部表数据的schema intersect select xxxx,xxxx,xxxx from target_schema.table_01 --目标数据的schema 实现的脚本如下所示:

echo check duplicate data between  $1.$2 $3.$2_EXT2 >> intersect_result.log
sqlplus -s  n1/n1 <<EOF
set pages 0
set feedback off
set linesize 300
col intersect_sql format a1000
spool intersect_result.sql
SELECT 
'select '|| SUBSTR (MAX (SYS_CONNECT_BY_PATH (column_name, ',')), 2)||' from '||table_name||chr(10)||
' intersect '||chr(10)||
'select '|| SUBSTR (MAX (SYS_CONNECT_BY_PATH (column_name, ',')), 2)||' from $3.'||table_name||'_ext2;' intersect_sql
FROM (SELECT index_name, table_name,column_name, rn, LEAD (rn) OVER (PARTITION BY index_name ORDER BY rn) rn1
         FROM (SELECT index_name, table_name,column_name, ROW_NUMBER () OVER (ORDER BY column_position desc) rn
                   FROM all_ind_columns where table_name=upper('$2') and table_owner=upper('$1')))
START WITH rn1 IS NULL
CONNECT BY rn1 = PRIOR rn
GROUP BY index_name,table_name;
spool off;
spool intersect_result.log append
@intersect_result.sql
spool off;
EOF
exit

在此基础上更近一步,可以通过如下的脚本来生成动态的执行脚本,直接执行tmp_compare.sh就可以了。其中tab_parall.lst是一个配置文件。里面包含了需要比较的表 cat ../parfile/tab_parall.lst|awk -v source_schema=$1 -v ext_schema=$2 '{print "ksh compare.sh " source_schema " " $1 " " ext_schema}' > tmp_compare.sh tab_parall.lst的内容类似如下的格式: table01 table02 table03

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2014-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

基于ONOS的SDN-IP架构概述篇

编者按:SDN-IP是ONOS上的一个应用程序,允许软件定义网络使用标准的边界网关协议(BGP)连接到外部网络。从BGP角度看,SDN网络表现为单一的自治系统(...

3085
来自专栏架构师之路

巧用CAS解决数据一致性问题

缘起:在高并发的分布式环境下,对于数据的查询与修改容易引发一致性问题,本文将分享一种非常简单但有效的优化方法。 一、业务场景 业务场景为,购买商品的过程要对余额...

2937
来自专栏服务端思维

选择合适的数据存储方案

在服务端会经常遇到数据存储的选型问题,是选择使用关系型数据库 MySQL,还是选择内存数据库 Redis,还是选择文档数据库 MongoDB,还是选择列族数据库...

382
来自专栏沃趣科技

容器化RDS|计算存储分离架构下的 IO 优化

在基于 Kubernetes 和 Docker 构建的私有 RDS 中,普遍采用了计算存储分离架构。该架构优势明显, 但对于数据库类 Latency Sensi...

2804
来自专栏码代码的陈同学

Mysql插入2.6亿条垃圾数据后会发生什么?

今天下午业务人员发现某功能无响应(该功能一天前上线),技术人员初步诊断后发现是某个DB不太正常,DB为Mysql 5.7.18。

1782
来自专栏accesshub

企业与云VPN组网自动化实践

伴随着不断出现的外部,内部挑战,我们将业务向公有云迁移。随着时间的推移,逐渐形成了混合云架构。

1332
来自专栏杨建荣的学习笔记

你的备库做好准备了吗(r7笔记第78天)

这篇文章计划了一段时间,本来想写篇心情文字,还是留到周末再放飞心情吧。 今天的内容是关于数据库的备库的思考,当然我们可以自己问自己,我们的备库准备工作做好了吗?...

3617
来自专栏我是攻城师

Java程序员使用的20几个大数据工具

2639
来自专栏「3306 Pai」社区

RadonDB架构解析

RadonDB在DTCC大会主会场宣布开源了, 一个期待已久的产品终于走进了开源社区。 感谢青云领导层的对技术贡献的情怀。

641
来自专栏IT大咖说

容器化RDS|计算存储分离架构下的 IO 优化

摘要 在基于 Kubernetes 和 Docker 构建的私有 RDS 中,普遍采用了计算存储分离架构。该架构优势明显, 但对于数据库类 Latency Se...

3178

扫描关注云+社区