学习
实践
活动
工具
TVP
写文章

致敬 Apache Sqoop

大家好,我是一哥,昨天看到了过往记忆大佬发了一篇文章,才发现Sqoop这个项目最近不咋好,心里很不是滋味,这个帮助过很多开发者的项目,竟然从Apache顶级项目中“下架”了,今天还是想给大家分享介绍一些这个很棒的项目 1、去官网(http://archive.apache.org/dist/sqoop/)下载压缩包: ? 05 Sqoop的遗憾 Apache Sqoop moved into the Attic in 2021-06. Apache Sqoop mission was the creation and maintenance of software related to Bulk Data Transfer for Apache 这里有之前写的一份如何参与Apache项目的指南《如何参与一个Apache开源项目》,一起加入开源! 开源,让技术更美好!

28620

Apache Sqoop 将mysql导入到Hadoop HDFS

第 21 章 Apache Sqoop 目录 21.1. sqoop-1.99.7-bin-hadoop200.sh | bash 启动 Sqoop /srv/apache-sqoop/bin/sqoop.sh server start 检查 Sqoop : /srv/apache-sqoop/bin/.. -shell [hadoop@netkiller ~]$ sqoop2-shell Setting conf dir: /srv/apache-sqoop/bin/.. /conf Sqoop home directory: /srv/apache-sqoop Sqoop Shell: Type 'help' or '\h' for help.

98770
  • 广告
    关闭

    年末·限时回馈

    热卖云产品年终特惠,2核2G轻量应用服务器6.58元/月起,更多上云必备产品助力您轻松上云

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    sqoop原理

    sqoop,各位看官基本上都了解或者听说过,小二就不进行废话了。 另外基于国内大部分用的为CDH,小二就想说一点:CDH中的sqoop2其实是apace版的sqoop1,聪明的看官不要被表面所迷惑了. 第一关:无图无真相 ? root --password 123456 --table cae01_psnmrtginfo_chenx --target-dir /usr/input/db -m 1 mysql导入到hive sqoop dwd_icc_clnt_bkinfo --hive-import --hive-overwrite --null-string '\\N' --null-non-string '\\N' -m 1 sqoop --password 000000 --hive-table users --fields-terminated-by "\0001" --lines-terminated-by "\n"; sqoop

    1.5K10

    Sqoop安装

    这篇文章记录了配置sqoop的步骤。在实验过程中,遇到了一些ERROR,反复百度也没有找到解决方法。最后,把sqoop安装文件夹删除,wget原始文件,重头配置了一遍,一切都OK了。 一、下载sqoop 1.4.7 如图,下载地址很好找。本文还是用sqoop1。 ? 下载页面下有两个链接,使用sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz,包含hadoop支持。不要用sqoop-1.4.7.tar.gz。 ? 三、修改配置 添加环境变量 export SQOOP_HOME="/opt/sqoop" export PATH=$SQOOP_HOME/bin:$PATH 主要配置文件sqoop/config/sqoop-env.sh NoClassDefFoundError: org/apache/avro/LogicalType 这个问题出现了,没有解决,希望再遇到的同学和我一样,按官方jar下载重装解决。

    1.6K40

    Sqoop:容错

    Sqoop本身的容错依赖于Hadoop,这里我们focus在Sqoop传输任务失败的处理,确切的说,focus在Sqoop如何解决传输任务失败引发的数据一致性问题 对于一个传输任务,将数据从A传输到B, Sqoop将一个传输作业生成一个mapreduce job,一个job有多个并行执行传输作业的mapreduce task在和外部数据库做数据传输,然后,有很多原因可以导致个别task fail,eg: 对于Sqoop Import任务,由于Hadoop CleanUp Task的存在,这个问题不存在 Sqoop Export任务则提供了一个“中间表”的解决办法 先将数据写入到中间表,写入中间表成功, /sqoop export --connect jdbc:mysql://127.0.0.1/test --table employee --staging-table employee_tmp --clear-staging-table

    10410

    大数据技术之_12_Sqoop学习_Sqoop 简介+Sqoop 原理+Sqoop 安装+Sqoop 的简单使用案例+Sqoop 一些常用命令及参数

    第1章 Sqoop 简介   Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独立成为一个 Apache 顶级项目 第3章 Sqoop 安装   安装 Sqoop 的前提是已经具备 Java 和 Hadoop 的环境。 3.1 下载并解压 1) 下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2) 上传安装包 sqoop-1.4.6.bin__hadoop-2.0.4  sqoop 3.2 修改配置文件   Sqoop 的配置文件与大多数大数据框架类似,在 sqoop 根目录下的 conf 目录中。

    75730

    Sqoop安装

    ---- 准备 sqoop安装包 下载地址 https://mirrors.aliyun.com/apache/sqoop/ 我使用的版本为sqoop-1.4.6.bin__hadoop-2.0.4 -alpha.tar.gz 说明 sqoop和1和2两个大版本 sqoop-1.4.6为sqoop1的最后一个版本 sqoop2的版本从1.99.1开始 sqoop可以从hdfs、hive、hbase # 在hadoop的cdh版本中,把4个组件(commom、hdfs、mapreduce、yarn)安装到4个不同的目录中 # 而apache-hadoop的4个组件都在一个目录下 # 根据自己的版本配置这里的环境变量 ,我是apache-hadoop,所以都用HADOOP_HOME即可 export HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.5 export HADOOP_MAPRED_HOME Sqoop 1.4.6 sqoop安装成功!

    47640

    sqoop概述

    Sqoop的简介 sqoop,即SQL To Hadop,目的是完成关系型数据库导入导出到Hadoop Sqoop的原理是将命令翻译为mapreduce程序执行,MR没有Reduce阶段,只有Map阶段 Sqoop的安装 配置环境 可以在/etc/profile中配置,导出为全局变量或在sqoop-env.sh文件配置 注:需提前配置HADOOP_HOME,HIVE_HOME,HBASE_HOME ,ZOOKEEPER_HOME 将连接mysql的驱动(参考Hive数据的存储以及在centos7下进行Mysql的安装),拷贝到sqoop的lib目录 测试,如果没有配置环境变量,则进入sqoop 自动替换为一些表达式 --query "SQL" 导入到Hive Sqoop导入到hive,也是先将数据导入到HDFS,再将HDFS的数据,load到hive表中,这个过程自动完成。 在执行导入时,sqoop是可以帮我们自动建表,在使用1.3.0hbase时,建表会失败!建议手动建表!

    23310

    Sqoop工具模块之sqoop-import-all-tables

    2、语法 $ sqoop import-all-tables (generic-args) (import-args) $ sqoop-import-all-tables (generic-args) 这些参数的使用方式和sqoop-import工具的使用方式一样,但是--table、--split-by、--columns和--where参数不能用于sqoop-import-all-tables工具 --exclude-tables参数只能在sqoop-import-all-tables工具中使用。 3、输出格式参数 --enclosed-by <char>:设置必需的字段包围字符。 三、应用示例     导出corp数据库中的所有表: $ sqoop import-all-tables --connect jdbc:mysql://db.foo.com/corp     验证结果:

    91630

    sqoop之旅7-sqoop job

    sqoop job Purpose The job tool allows you to create and work with saved jobs. 通过已经保存好的作业直接执行以前的任务,无需重复操作 记录sqoop命令的配置信息 saved job保证只导入最新的数据 Syntax $ sqoop job (generic-args ) (job-args) [-- [subtool-name] (subtool-args)] $ sqoop-job (generic-args) (job-args) [-- [subtool-name ] (subtool-args)] 看一个demo # 创建 sqoop job --create myjob \ # 指定名字myjob -- import \ --connect jdbc:mysql # 显示 sqoop job --list # 查看 sqoop job --show myjob

    16610

    sqoop之旅5-sqoop实例

    假设MySQL数据库中有一张表,库名是sqooptest,表名是digdata,表的字段包含: class_id class_name class_month teacher 导入HDFS中 sqoop import \ --connect jdbc:mysql://ubuntu:3306/sqooptest \ # ubuntu 是主机名;sqoop 是数据库的名字 --username root import \ --connect jdbc:mysql://ubuntu:3306/sqooptest \ # ubuntu 是主机名;sqoop 是数据库的名字 --username root \ --password 123456 \ --table sqoop \ # 指定导入到hive中的表名 --hive-default \ --create-table \ # 创建表 -m --options-file sqoop.im

    12620

    Sqoop】数据转换工具Sqoop

    sqoop,即SQL to HADOOP的简写。 2、Sqoop版本 Sqoop1和Sqoop2版本是两个不同版本,完全不兼容。其版本号划分方式:Apache:1.4.x~ ,1.99.x~。 Sqoop2比Sqoop1的改进有: (1)引入sqoop server,集中化管理Connector等; (2)多种访问方式:CLI,Web UI,REST API; (3)引入基于角色的安全机制 一般的Apache官方适应于Hadoop版本的编译好的sqoop二进制文件并不适用于我们的hadoop版本,所以我们需要依据hadoop 版本编译sqoop。 /imp_my_snappy \ --delete-target-dir \ --num-mappers 1 \ --compress \ --compression-codec org.apache.hadoop.io.compress.SnappyCodec

    63330

    Sqoop篇】----Sqoop从搭建到应用案例

    Sqoop其实功能非常简单。 三、 使用 官方参考手册:http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_connecting_to_a_database_server root --password 123 --as-textfile --columns id,name,msg --table psn --delete-target-dir --target-dir /sqoop /data -m 1 可以将上述命令定义在一个脚本里面: 使用如下命令: sqoop --options-file sqoop1 案例二(步骤是Mysql---Hive)的顺序):实际上就是Mysql-HDFS-Hive select id, name, msg from psn where id like "1%" and $CONDITIONS' --delete-target-dir --target-dir /sqoop

    32910

    Sqoop工具模块之sqoop-import 原

    例如:要连接到SQLServer数据库,首先要下载驱动jar包并将其拷贝到Sqoop lib路径中。然后运行Sqoop。 除此之外,Sqoop配置参数org.apache.sqoop.credentials.loader.class应该设置为提供别名解析的类名:org.apache.sqoop.util.password.CredentialProviderPasswordLoader 在执行并行导入时,Sqoop需要一个可以分割工作负载的标准。Sqoop使用列来分割工作量。默认情况下,Sqoop将识别表中的主键列(如果存在)并将其用作拆分列。 4、控制分布式缓存相关参数     每次启动Sqoop作业时,Sqoop都会将$ SQOOP_HOME / lib文件夹中的jar包复制到作业缓存中。 当由Oozie启动时则不用,因为Oozie使用它自己的Sqoop共享库,它将Sqoop依赖关系保留在分布式缓存中。

    1.4K20

    Sqoop工具模块之sqoop-export 原

    1、模式 sqoop-export有三种模式: 默认模式:将它们转换为一组将INSERT语句注入数据库的语句。 更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句。 调用模式:Sqoop将为每条记录创建一个存储过程调用。 2、语法 和之前的导入工具一样,sqoop-export也有两种语法: sqoop export (generic-args) (export-args) sqoop-export (generic-args Sqoop执行一组操作不考虑现有内容。如果Sqoop尝试在数据库中插入违反约束的行(例如,特定主键值已存在),则导出失败。 否则,数据库将拒绝导入的数据,从而导致Sqoop作业失败。

    1.5K30

    Sqoop 压缩

    Sqoop 作业的输出可以直接压缩。Sqoop 作业是一个MapReduce作业, 因此通过设置MapReduce压缩编解码器, 可以得到 Sqoop 的输出压缩。 只需将参数放到 Sqoop 命令字符串中即可。 --compression-codec <compression codec> snappy压缩 --compression-codec org.apache.hadoop.io.compress.SnappyCodec Gzip压缩 --compression-codec org.apache.hadoop.io.compress.GzipCodec Bzip压缩 --compression-codec org.apache.hadoop.io.compress.BZip2Codec

    86040

    —— Sqoop初探

    Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具,当然也支持把数据从hdfs或者hive导入到关系型数据库中。 Sqoop也是基于Mapreduce来做的数据导入。 关于sqoop的原理 sqoop的原理比较简单,就是根据用户指定的sql或者字段参数,从数据库中读取数据导入到hive或者hdfs中。 在导出的过程中,sqoop会自动切分mapreduce任务。 关于架构 sqoop目前有两个大版本,第一个版本比较简单,只能使用命令行 ? 第二个版本引入了sqoop server,统一处理连接等信息,并提供多种连接方式,还引入了权限控制,另外规范了连接的各项配置。 ? 官方文档 没啥说的,学东西,还得阅读官方文档,链接参考这里

    43290

    sqoop安装 原

    首先下载sqoop,http://mirror.bit.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 注意hadoop 版本,找到适合自己的安装包,下载完成后上传到服务器并解压 tar xvzf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar 拷贝一个mysql驱动jar到sqoop的lib 中,我这里直接从hive中拷贝了 cp ~/hive/apache-hive-1.2.1-bin/lib/mysql-connector-java-5.1.18-bin.jar lib/ 然后设置环境变量 ,将sqoop配置进去 export SQOOP_HOME=/home/hadoop/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha export PATH = $SQOOP_HOME /bin:$PATH export CATALINA_BASE=$SQOOP_HOME/server export LOGDIR=$SQOOP_HOME/logs/ 至此安装成功 关于使用,这里有个比较好的帖子

    20330

    Sqoop学习之路

    Sqoop知识梳理、环境搭建、基本原理、常用命令、Sqoop练习等 Sqoop学习之路 一、概述 Sqoop (SQL to Hadoop) 是Apache顶级项⽬,官⽹地址:http://sqoop.apache.org HDFS, MapReduce, YARN, ZooKeeper, Hive, HBase, MySQL 2、软件下载 下载地址http://mirrors.hust.edu.cn/apache/ [resize ,解压后,放到/software/ 目录中: cd /data/pkg/ wget http://mirrors.shu.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin HBASE_HOME=/software/hbase-1.2.4 #Set the path to where bin/hive is available export HIVE_HOME=/software/apache-hive 在apache的hadoop的安装中;四大组件都是安装在同一个hadoop_home中的 但是在CDH, HDP中, 这些组件都是可选的。

    49520

    扫码关注腾讯云开发者

    领取腾讯云代金券