sqlldr批量导入导出数据测试(86天)

sqlldr是在处理大数据量的操作中建议采用的方式,它有许多性能想关的开关,能最大程度的减少redo,undo的生成,控制数据的处理方式(insert,append,replace,truncate) 因为项目需要,对比datapump性能还是不理想,所以还是希望采用sqlldr来做。个人做了简单的测试。 根据thomas kyte的介绍,并行执行路径加载时最快的方式,能够直接写只格式化的数据块,最大限度的减少redo,undo的生成。 先写了如下的脚本。可以动态的从某个用户的表中生成元数据。 sqlplus -s $1 <<EOF set pages 0 col object_name format a30 set linseize 10000 set feedback off set colsep ',' spool $2.lst select *from $2 ; spool off; EOF 运行后生成的数据大体如下。

[ora11g@rac1 sqlldr]$ ksh spooldata.sh n1/n1 t
    370753,     10205,KU$_DOMIDX_OBJNUM_VIEW        ,VIEW
    370754,     10207,KU$_OPTION_OBJNUM_T           ,TYPE
    370755,     10208,KU$_EXPREG                    ,VIEW
    370756,     10210,SYS_YOID0000010209$           ,TYPE
    370757,     10209,KU$_OPTION_OBJNUM_VIEW        ,VIEW
    370758,     10211,KU$_OPTION_VIEW_OBJNUM_VIEW   ,VIEW
    370759,     10212,KU$_MARKER_T                  ,TYPE
    370760,     10214,SYS_YOID0000010213$           ,TYPE
    370761,     10213,KU$_MARKER_VIEW               ,VIEW
    370762,     10215,KU$_TABPROP_VIEW              ,VIEW
    370763,     10216,KU$_PFHTABPROP_VIEW           ,VIEW
    370764,     10217,KU$_REFPARTTABPROP_VIEW       ,VIEW
    370765,     10218,KU$_MVPROP_VIEW               ,VIEW
    370766,     10219,KU$_MVLPROP_VIEW              ,VIEW
    370767,     10220,KU$_TTS_VIEW                  ,VIEW
    370768,     10221,KU$_TAB_TS_VIEW               ,VIEW
    370769,     10222,KU$_TTS_IND_VIEW              ,VIEW
    370770,     10223,KU$_IND_TS_VIEW               ,VIEW
    370771,     10224,KU$_CLU_TS_VIEW               ,VIEW

然后准备控制文件 sqlldr.ctl,把数据从t加载到tt里面去。 load data into table tt fields terminated by ',' (id,object_id,object_name,object_type) 尝试导入: [ora11g@rac1 sqlldr]$ sqlldr n1/n1 control=sqlldr.ctl data=t.lst SQL*Loader: Release 11.2.0.3.0 - Production on Tue May 27 08:09:25 2014 Copyright (c) 1982, 2011, Oracle and/or its affiliates. All rights reserved. 但是没有任何的反馈。 查看自动生成的sqlldr.log 里面有如下的错误。 Column Name Position Len Term Encl Datatype ------------------------------ ---------- ----- ---- ---- --------------------- ID FIRST * , CHARACTER OBJECT_ID NEXT * , CHARACTER OBJECT_NAME NEXT * , CHARACTER OBJECT_TYPE NEXT * , CHARACTER Record 1: Rejected - Error on table TT, column OBJECT_TYPE. Field in data file exceeds maximum length Record 2: Rejected - Error on table TT, column OBJECT_TYPE. Field in data file exceeds maximum length Record 3: Rejected - Error on table TT, column OBJECT_TYPE. Field in data file exceeds maximum length Record 4: Rejected - Error on table TT, column OBJECT_TYPE. Field in data file exceeds maximum length

尝试了好一会儿,最终发现时set linesize的时候长度设置的比较大,在根据逗号','来解析的时候,最后一个字段的长度就包含了剩余的空格,最终加载的时候就会发现它的长度太大了。已经超出了表定义的长度。 这种情况,我总不能一个一个指定长度吧。 这时候想到trimspool的功能,尝试果然奏效。 spooldata.sh的脚本内容如下: sqlplus -s $1 <<EOF set pages 0 col object_name format a30 set linesize 10000 set trimspool on set feedback off set colsep ',' spool $2.lst select *from $2 where rownum<20 ; spool off; EOF 再次尝试导入,就没有问题了。 [ora11g@rac1 sqlldr]$ sqlldr n1/n1 control=sqlldr.ctl data=t.lst SQL*Loader: Release 11.2.0.3.0 - Production on Tue May 27 08:14:44 2014 Copyright (c) 1982, 2011, Oracle and/or its affiliates. All rights reserved. Commit point reached - logical record count 19 到此为止,来开始看看direct方式到底有多大的性能提升 对于将近80万的数据量测试情况如下。 没有采用direct方式的时候,会有一定的频度(默认50条一次)来加载数据,耗时79秒,基本一秒一万条 Commit point reached - logical record count 793480 Commit point reached - logical record count 793544 Commit point reached - logical record count 793608 Commit point reached - logical record count 793672 Commit point reached - logical record count 793736 Commit point reached - logical record count 793800 Commit point reached - logical record count 793864 Commit point reached - logical record count 793928 Commit point reached - logical record count 793992 Commit point reached - logical record count 794056 Commit point reached - logical record count 794120 Commit point reached - logical record count 794184 Commit point reached - logical record count 794248 Commit point reached - logical record count 794312 Commit point reached - logical record count 794369 但是使用了direct=true的时候,速度明显提升,而且输出也很简单,就下面一行。耗时8秒,基本一秒10万条数据。 8s [ora11g@rac1 sqlldr]$ sqlldr n1/n1 direct=true control=sqlldr.ctl data=t.lst SQL*Loader: Release 11.2.0.3.0 - Production on Tue May 27 07:56:31 2014 Copyright (c) 1982, 2011, Oracle and/or its affiliates. All rights reserved. Load completed - logical record count 794369.

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2014-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏finleyMa

PHP7 新语法总结,更新7.2注意事项

太空船操作符用于比较两个表达式。当$a小于、等于或大于$b时它分别返回-1、0或1

532
来自专栏FreeBuf

FlaskJinja2 开发中遇到的的服务端注入问题研究 II

0x00. 前言 本篇文章是 《Flask Jinja2 开发中遇到的的服务端注入问题研究》<点击阅读原文查看链接>续篇,我们继续研究 Flask Jinja...

2626
来自专栏陈满iOS

iOS引用转换:Foundation与Core Foundation对象互相转换(__CFString转NSString,void *转id等等)

下载地址:苹果公开的源代码在这里可以下载,https://opensource.apple.com/tarballs/

753
来自专栏零基础使用Django2.0.1打造在线教育网站

零基础使用Django2.0.1打造在线教育网站(七):数据库字段的定义(上)

努力与运动兼备~有任何问题可以加我好友或者关注微信公众号,欢迎交流,我们一起进步!

896
来自专栏数据分析

[数据库基础]——编码标准之命名

一个语句写十遍,居然大部分时候都是不一样的。上网找了一些SQL的开发标准文档,结合项目中的使用,写一些关于自己SQL的开发标准文档。 解编码标准就是一套写代码的...

3035
来自专栏青玉伏案

ReactiveSwift源码解析(十一) Atomic的代码实现以及其中的Defer延迟、Posix互斥锁、递归锁

本篇博客我们来聊一下ReactiveSwift中的原子性操作,在此内容上我们简单的聊一下Posix互斥锁以及递归锁的概念以及使用场景。然后再聊一下Atomic的...

3075
来自专栏专注 Java 基础分享

Java--JDBC连接数据库(二)

     本篇文章接着上篇文章,还剩下一个知识点是,可滚动的结果接集和可更新的结果集。一般默认情况之下,多结果集是不可以显式滚动,移动选择的。如果想要做到,需要...

1876
来自专栏开源优测

[接口测试 - 基础篇] 11 掌握下python解析YAML格式也是需要的

什么是YAML YAML参考了其他多种语言,包括:XML、C语言、Python、Perl以及电子邮件格式RFC2822。 Clark Evans在2001年5月...

3187
来自专栏IMWeb前端团队

Promise原理浅析

Promise介绍 项目相关demo和代码地址 介绍 Promise 对象用于延迟(deferred) 计算和异步(asynchronous ) 计算.。一个P...

1969
来自专栏MasiMaro 的技术博文

枚举进程中的模块

在Windows中枚举进程中的模块主要是其中加载的dll,在VC上主要有2种方式,一种是解析PE文件中导入表,从导入表中获取它将要静态加载的dll,一种是利用查...

962

扫描关注云+社区