首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Sqoop 整体介绍

    Sqoop 数据迁移         Sqoop 底层还是运行在MapReduce上,通过Yarn进行调度的,只是Sqoop在做数据迁移过程中,只用到了MapTask,没有用到ReduceTask。         Sqoop 是一个数据迁移工具,可以理解为客户端程序,提供HDFS/Hive/HBase 到 RDS(Oracle,Postgrel,MySql等) 数据的导入导出         Sqoop 需要配置到HDFS端,Sqoop从HDFS/Hive/HBase 导出到 RDB时,需要预先 对RDB进行表结构定义,从RDB导出到Hive/HDFS/HBase时不需要对HBase进行表结构定义,对Hive的定义需要指定分隔符等参数.         Sqoop需要指定 Hadopp-Home.xml ,MapReduce-HOME.xml,JAVA-HOME 等系统环境变量          类型类型包含 Export,Import         Sqoop 在做数据迁移之前,最好测试下 数据连接是否正常,如果运行不正常,方便进行问题定位。         Sqoop 需要参数配置文件 ***.xml,             如果从 RDB  导出数据到 HDFS                 指定 RDB驱动,路径,用户名,密码,库及表等信息                 如果为 HDFS 需要执行 HDFS 路径,与Hive数据类似                 如果为HBase,则需要指定库信息,路径等             如果从 HDFS/Hive/HBase 到RDB时,                 指定HDFS,需要指定路径,分割幅等信息,Hive类似                 RDB需要指定 驱动名,URL,User,Pwd,库及表

    01

    大数据技术之_12_Sqoop学习_Sqoop 简介+Sqoop 原理+Sqoop 安装+Sqoop 的简单使用案例+Sqoop 一些常用命令及参数

    Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。   Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独立成为一个 Apache 顶级项目。   Sqoop2 的最新版本是 1.99.7。请注意,2 与 1 不兼容,且特征不完整,它并不打算用于生产部署。

    03

    oracle11g数据库导入导出方法教程[通俗易懂]

    ①:传统方式——exp(导出)和(imp)导入: ②:数据泵方式——expdp导出和(impdp)导入; ③:第三方工具——PL/sql Developer; 一、什么是数据库导入导出? oracle11g数据库的导入/导出,就是我们通常所说的oracle数据的还原/备份。 数据库导入:把.dmp 格式文件从本地导入到数据库服务器中(本地oracle测试数据库中); 数据库导出:把数据库服务器中的数据(本地oracle测试数据库中的数据),导出到本地生成.dmp格式文件。 .dmp 格式文件:就是oracle数据的文件格式(比如视频是.mp4 格式,音乐是.mp3 格式); 二、二者优缺点描述: 1.exp/imp: 优点:代码书写简单易懂,从本地即可直接导入,不用在服务器中操作,降低难度,减少服务器上的操作也就 保证了服务器上数据文件的安全性。 缺点:这种导入导出的速度相对较慢,合适数据库数据较少的时候。如果文件超过几个G,大众性能的电 脑,至少需要4~5个小时左右。 2.expdp/impdp: 优点:导入导出速度相对较快,几个G的数据文件一般在1~2小时左右。 缺点:代码相对不易理解,要想实现导入导出的操作,必须在服务器上创建逻辑目录(不是真正的目录)。我们 都知道数据库服务器的重要性,所以在上面的操作必须慎重。所以这种方式一般由专业的程序人员来完 成(不一定是DBA(数据库管理员)来干,中小公司可能没有DBA)。 3.PL/sql Develpoer: 优点:封装了导入导出命令,无需每次都手动输入命令。方便快捷,提高效率。 缺点:长时间应用会对其产生依赖,降低对代码执行原理的理解。 三、特别强调: 目标数据库:数据即将导入的数据库(一般是项目上正式数据库); 源数据库:数据导出的数据库(一般是项目上的测试数据库); 1.目标数据库要与源数据库有着名称相同的表空间。 2.目标数据在进行导入时,用户名尽量相同(这样保证用户的权限级别相同)。 3.目标数据库每次在进行数据导入前,应做好数据备份,以防数据丢失。 4.使用数据泵时,一定要现在服务器端建立可用的逻辑目录,并检查是否可用。 5.弄清是导入导出到相同版本还是不同版本(oracle10g版本与oracle11g版本)。 6.目标数据导入前,弄清楚是数据覆盖(替换),还是仅插入新数据或替换部分数据表。 7.确定目标数据库磁盘空间是否足够容纳新数据,是否需要扩充表空间。 8.导入导出时注意字符集是否相同,一般Oracle数据库的字符集只有一个,并且固定,一般不改变。 9.导出格式介绍:    Dmp格式:.dmp是二进制文件,可跨平台,还能包含权限,效率好;    Sql格式:.sql格式的文件,可用文本编辑器查看,通用性比较好,效率不如第一种, 适合小数据量导入导出。尤其注意的是表中不能有大字段 (blob,clob,long),如果有,会报错;    Pde格式:.pde格式的文件,.pde为PL/SQL Developer自有的文件格式,只能用PL/SQL Developer工具 导入导出,不能用文本编辑器查看; 10.确定操作者的账号权限。 四、二者的导入导出方法: 1、传统方法: 通用命令:exp(imp) username/password@SERVICENAME:1521 file=”e:\temp.dmp” full = y; 数据库导出举例:

    04

    oushudb-数据库的备份和恢复

    这一节,我们一起来学习如何数据库的备份和恢复,即导入和导出OushuDB数据。 再导入导出之前,为了保证你有足够的磁盘空间来存储备份文件,我们可以通过如下命令得到数据库大 小: mydb=# SELECT sodddatsize FROM hawq_toolkit.hawq_size_of_database WHERE sodddatname=’mydb’; 如果待备份表是压缩的,这个查询给出的大小是压缩后的大小,如果你的备份是没有压缩的,需要乘上 一个压缩比来计算所需空间。具体的空间占用情况,需要根据大家的实际情况来分析判断。 数据库的备份和恢复 通过gpfdist外部表导入数据 启动gpfdist文件服务器 把需要加载的数据文件放到gpfdist数据目录 定义外部表 加载数据 通过gpfdist外部表导出数据 启动gpfdist文件服务器 准备导出的表 定义外部表 导出数据 hdfs外部表导入数据 把需要加载的数据文件放到hdfs数据目录 定义外部表 加载数据 hdfs外部表导出数据 准备导出的表 定义外部表 导出数据 使用COPY命令导入导出数据

    01

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券