Sqoop基础学习(1)

1. Sqoop的导入过程

在开始导入之前,Sqoop会通过JDBC来获得所需要的数据库元数据

  • 1.导入表的列名、数据类型等;
  • 2.接着这些数据库的数据类型(varchar、number等)会把映射成Java的数据类型(String、int等),根据这些信息,Sqoop会生成一个与表名同名的类用来完成反序列的工作,保持表中的每一行记录;
  • 3.Sqoop启动MapReduce作业
  • 4.启动的作业在input的过程中,会通过JDBC读取数据库表中的内容;
  • 5.这是会使用Sqoop生成的类进行反序列话
  • 6.最后再将这些记录写到HDFS中,在写入HDFS的过程中,同样会使用Sqoop生成的类进行序列化。

2. Sqoop的导出过程

  • 1/2 Sqoop根据目标表的结构会生成一个Java类
  • 3.该类作用为序列化和反序列化
  • 4.接着启动一个MapReduce作业
  • 5.在作业中会生成的Java类从HDFS中读取数据
  • 6.并生成一批INSERT语句,每条语句都会向MySQL的目标表中插入多条记录

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏orientlu

UNIX IPC

管道一般为有亲缘关系进程提供单路数据流, 通过pipe(int fd[2])创建, 返回两个文件描述符, fd[0] 用于读,fd[1]用于写。 通过 read...

942
来自专栏企鹅号快讯

数据库连接池的选择

新年的第一个工作日,愿我们的2018更好! 在基于JVM的后台开发的中,在高并发场景下,往往会有一些对象,如数据库连接、线程...等对象,它的创建和初始化需要的...

2188
来自专栏魏琼东

基于DotNet构件技术的企业级敏捷软件开发平台 - AgileEAS.NET - ORM访问器

    上一篇文章AgileEAS.NET之数据关系映射ORM简单介绍了一下AgileEAS.NET平台中ORM对象的组织机构体系,但并没有对其所执行的数据存取...

1776
来自专栏DOTNET

Entity Framework——性能测试

内容提要 一、对EF框架的性能测试 增、删、改,查测试及性能优化 二、使用sql执行 增、删、改,查测试 三、对以上两种方式对比分析 一 对EF框架的测试 1...

4736
来自专栏张善友的专栏

Ibatisnet介绍

介绍 欢迎来到iBATISNet Database Layer!这个框架将让你能够更好的在dotnet应用中设计和实现实体层。这个框架有两个主要的组成部分,一个...

1846
来自专栏PPV课数据科学社区

python多线程编程(1): python对多线程的支持

前面介绍过多线程的基本概念,理解了这些基本概念,掌握python多线程编程就比较容易了。 在开始之前,首先要了解一下python对多线程的支持。 虚拟机层面 P...

34515
来自专栏架构师之路

连接池原来这么简单(一分钟系列)

应网友要求,写一写连接池实现细节。 一、如何通过连接访问下游 工程架构中有很多访问下游的需求,下游包括但不限于服务/数据库/缓存,其通讯步骤是为: (1)与下游...

3517
来自专栏性能与架构

MySql缓存中的关键项

MySql的设计中大量使用了缓存,下面这些缓存配置项是应该熟知的 key_buffer_size key_buffer_size是设置MyISAM表索引的缓冲区...

3445
来自专栏java学习

Hibernate学习笔记2

定义hbm.xml映射文件和pojo类时都需要定义主键,Hibernate中定义的主键类型包括:自然主键和代理主键:

874
来自专栏DOTNET

【翻译】MongoDB指南/CRUD操作(三)

【原文地址】https://docs.mongodb.com/manual/ CRUD操作(三) 主要内容: 原子性和事务(Atomicity and Tran...

2629

扫码关注云+社区