sqlldr和oracle_datapump性能比较(r2笔记35天)

针对之前在生产环境中使用sql*loader的性能问题,最近一直在想使用外部表的oracle_datapump来替代它。 昨天下午做了大量数据的测试,比较了这两种方案。最后发现在一定的限定条件下,从很多细节来看 oracle_datapump要更胜一筹。 首先使用sql*loader对于clob,blob的数据相比普通表的处理要一些额外的工作,但是这些限制或者额外工作再oracle_datapump中就可以很方便的使用,oracle_datapump支持的数据类型要更丰富。 在生产环境中,迁移数据的时候,只是对于foreign key做了disable的操作,对于其他的constraint都做了保留,没有任何其他的操作,所以使用sql*loader 的direct选项就有很多的限制和无法实现的苦衷。在表级都设置了nologging。 --》数据抽取 以下是使用sql*loader和oracle_datapump的一些性能比较。数据量在120-150G左右。 使用sql*loader的时候因为有2张表含有clob字段,所以就先没有处理,以此来对比oracle_datapump的速度。 可以看到sqlldr的速度做数据抽取大概耗费了14分钟,而且不包括2张含有clob的表,生成的dump文件有150G oracle_datapump的速度要更快一些。只耗费了大概3分钟左右,生成的dump文件要更加精简。 当然了sqlldr可以使用客户端来抽取数据,而oracle_datapump只能基于服务端,灵活性上sqlldr要好一些。

extract start time

extract end time

Duration

Dump_generated

sqlldr(exclude 2 tables)_68 tables

Tue Jul 15 13:28:15 ICT 2014

Tue Jul 15 13:42:32 ICT 2014

14 mins

150G

EXT_DATAPUMP 70 tables

Tue Jul 15 14:03:11 ICT 2014

Tue Jul 15 14:06:20 ICT 2014

3 mins

59G

--》数据加载 数据抽取的速度其实不是关键,很多工作可以在升级之前完成,对于系统的影响倒不是很重要,关键在于数据的加载速度。 可以看到采用sqlldr加载数据的时候,启用了150个并行线程,sqlldr开启了并行。耗费了大约80分钟,产生的日志数据量也不少有,230G左右。 而oracle_datapump的表现在这方便确实更胜一筹,启用了4个session,每个session启用并行度为8来做数据的加载,加载速度要快一倍以上。而且产生的日志数据量也少了将近一半。

data loading start time

data loading end time

Duration

archive_logs_generated

sqlldr(exclude 2 tables)_68 tables

Tue Jul 15 14:24:24 ICT 2014

Tue Jul 15 15:44:04 ICT 2014

80 mins

230G

EXT_DATAPUMP 70 tables

Tue Jul 15 17:06:51 ICT 2014

Tue Jul 15 17:50:04 ICT 2014

44 mins

139G

--》数据校验 在数据校验方面,sqlldr就没有任何可行的方法来比较冗余数据了,在这方面,oracle_datapump可以根据生成的dump文件创建外部表,不耗费额外的表存储空间,在这个基础上,直接可以对外部表和目标表进行比较。在数据加载之前找到可能出现的潜在问题。 --》数据纠错 在数据纠错方面,sqlldr提供了完整的处理机制,如果数据不符合要求被reject,可以生成对应的错误文件,里面包含所有被拒的数据,可以再次使用sqlldr来加载。 但是对于oracle_datapump来说,只能到这里了。不过在数据库层面还有其他可行的方式,比如采用error log就可以得到出错的数据进行排错。

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2014-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员的知识天地

实施前端微服务化的方式

微前端架构是一种类似于微服务的架构,它将微服务的理念应用于浏览器端,即将 Web 应用由单一的单体应用转变为多个小型前端应用聚合为一的应用。

1471
来自专栏芋道源码1024

Redis 深度历险:核心原理与应用实践

Redis 是如今互联网技术架构中,使用最广泛的缓存。支持复杂的数据结构,支持持久化,支持主从集群,支持高可用,支持较大的value存储...

1232
来自专栏Java技术

Redis 深度历险:核心原理与应用实践!

Redis 是如今互联网技术架构中,使用最广泛的缓存。支持复杂的数据结构,支持持久化,支持主从集群,支持高可用,支持较大的value存储...

1611
来自专栏AzMark

墙裂推荐 Anaconda | 安利 Python IDE

由于 Python 有 2 和 3 两个版本,因此 Anaconda 也在 Python2 和 Python3 的基础上推出了两个发行版,即Anaconda2 ...

843
来自专栏vue+shiro

基于vue(element ui) + ssm + shiro 的权限框架

现在的Java世界,各种资源很丰富,不得不说,从分布式,服务化,orm,再到前端控制,权限等等玲琅满目,网上有句话说,语言框架迭代太快了,我学不动了,不如回去搬...

2992
来自专栏程序人生

想让服务器跑得快,并不是换个编程语言那么简单

最近一个读者问我:程序君,我是一个经常被你黑的phper,我想学一门新的语言,做服务器开发,看你好像用过好多语言,能推荐一个么?最好是开发效率高,支持并发,性能...

3428
来自专栏微信终端开发团队的专栏

微信 Android 模块化架构重构实践(上)

重构整体架构不是一件容易事,通常也不太可能让整个团队停下来只做重构。本文主要分享模块化架构重构的一点点经验。

2.1K6
来自专栏吉浦迅科技

DAY65:阅读Device-Side Kernel Launch

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第65天,我们正在讲解编程接口,希望在接下来的35天里,您可以学习到原汁...

804
来自专栏IT技术精选文摘

分布式存储理论与实践初探 (二)

数据分布 分布式存储系统需要将数据分布到多个节点,并在多个节点之间实现负载均衡。常见的数据分布的方式有两种:一种是哈希分布,如一致性哈希,典型的系统是Amazo...

1936
来自专栏UML

用例图示例:包含和扩展用例

用例提供了系统的高级视图。用例建模是与用户和其他利益相关者就系统和目标进行沟通的有效方式。用例描述了系统执行的动作序列,其为特定的actor产生可观察的值结果。...

2179

扫码关注云+社区