[大数据之Sqoop] —— Sqoop初探

Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具,当然也支持把数据从hdfs或者hive导入到关系型数据库中。

Sqoop也是基于Mapreduce来做的数据导入。

关于sqoop的原理

sqoop的原理比较简单,就是根据用户指定的sql或者字段参数,从数据库中读取数据导入到hive或者hdfs中。也支持基于数据库导出工具导出,不过受限于数据库的版本。

在导出的过程中,sqoop会自动切分mapreduce任务。比如某个字段的主键是从1到1000,那么当设置num-mappers为2时,第一个mr任务会读取1-500的数据,第二个mr任务会读取500-1000的数据。如果是字符串还有其他的划分方法.

关于架构

sqoop目前有两个大版本,第一个版本比较简单,只能使用命令行

第二个版本引入了sqoop server,统一处理连接等信息,并提供多种连接方式,还引入了权限控制,另外规范了连接的各项配置。

官方文档

没啥说的,学东西,还得阅读官方文档,链接参考这里

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏实战docker

Docker下dubbo开发,三部曲之三:java开发

在前两章《Docker下dubbo开发,三部曲之一:极速体验》和《Docker下dubbo开发,三部曲之二:本地环境搭建》中,我们体验了dubbo环境搭建以及服...

2245
来自专栏IT综合技术分享

docker安装篇,第二篇 在Ubuntu18.04上开启RESTful API接口,HTTP与HTTPS接口访问

本教程参考以下docker官方文档,如在使用本教程过程中存在问题,可翻阅原文官方文档: https://docs.docker.com/install/lin...

1433
来自专栏FreeBuf

一款针对WordPress网站的渗透测试框架

今天给大家介绍的是一款名叫Wordpress Exploit Framework的Ruby框架,研究人员可利用该框架来研发或使用其自带某开来对由WordPres...

1250
来自专栏运维咖啡吧

LDAP落地实战(三):GitLab集成OpenLDAP认证

当重启完成后登陆报:Could not authenticate you from Ldapmain because "Invalid credentials"...

3132
来自专栏个人分享

kafka_2.11-0.8.2.2的搭建

host.name=10.10.224.12  (修改为主机ip,不然服务器返回给客户端的是主机的hostname,客户端并不一定能够识别)

3141
来自专栏性能与架构

Mysql 5.7 主从复制的多线程复制配置方式

数据库复制的主要性能问题就是数据延时 为了优化复制性能,Mysql 5.6 引入了 “多线程复制” 这个新功能 但 5.6 中的每个线程只能处理一个数据库,所以...

3774
来自专栏Python

windows下命令行模式中cd命令无效的原因

当我们执行cmd 想切换当前工作目录时,会发现windows下命令行模式中cd命令没有生效,到底是什么原因呢? ? 例如: 当我们想切换到 D:\MySql\m...

2258
来自专栏算法修养

Flask 学习篇一: 搭建Python虚拟环境,安装flask,并设计RESTful API。

前些日子,老师给我看了这本书,于是便开始了Flask的学习 ? GitHub上的大神,于是我也在GitHub上建了一个Flask的项目。 有兴趣可以看看: ht...

6248
来自专栏运维小白

11.10/11.11/11.12 安装PHP5

安装PHP5目录概要 PHP官网www.php.net 当前主流版本为5.6/7.1 cd /usr/local/src/ wget http://cn2.ph...

2376
来自专栏Android群英传

Gradle自定义插件

1621

扫码关注云+社区

领取腾讯云代金券