Sqoop基础学习(1)

1. Sqoop的导入过程

在开始导入之前,Sqoop会通过JDBC来获得所需要的数据库元数据

  • 1.导入表的列名、数据类型等;
  • 2.接着这些数据库的数据类型(varchar、number等)会把映射成Java的数据类型(String、int等),根据这些信息,Sqoop会生成一个与表名同名的类用来完成反序列的工作,保持表中的每一行记录;
  • 3.Sqoop启动MapReduce作业
  • 4.启动的作业在input的过程中,会通过JDBC读取数据库表中的内容;
  • 5.这是会使用Sqoop生成的类进行反序列话
  • 6.最后再将这些记录写到HDFS中,在写入HDFS的过程中,同样会使用Sqoop生成的类进行序列化。

2. Sqoop的导出过程

  • 1/2 Sqoop根据目标表的结构会生成一个Java类
  • 3.该类作用为序列化和反序列化
  • 4.接着启动一个MapReduce作业
  • 5.在作业中会生成的Java类从HDFS中读取数据
  • 6.并生成一批INSERT语句,每条语句都会向MySQL的目标表中插入多条记录

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java后端技术

Spring+SpringMvc+Mybatis框架集成搭建教程三(框架整合测试程序开发)

(2).在main文件夹下的java源文件夹下创建com.hafiz.www包,并在该包下依次创建:

9230
来自专栏CodeSheep的技术分享

ElasticSearch搜索引擎在SpringBoot中的实践

首先当然需要安装好elastic search环境,最好再安装上可视化插件 elasticsearch-head来便于我们直观地查看数据。

382110
来自专栏琦小虾的Binary

CMake学习笔记(二)——CMake语法

CMake学习笔记(二)——CMake语法 上一篇学习笔记,笔者简单浏览了CMake官网提供的教程,但感觉并不系统,而且对很多指令并没有进行解释,所以只写了一半...

834100
来自专栏企鹅号快讯

简析J2EE应用程序数据库类设计模式

本文主要介绍一种数据库相关类的设计模式。并介绍在J2EE框架中的具体实现,以及在事务处理方面的一些考虑。 一、设计模式简介 在开发J2EE应用程序时,通常是...

20780
来自专栏一个会写诗的程序员的博客

第13章 Kotlin 集成 SpringBoot 服务端开发(1)第13章 Kotlin 集成 SpringBoot 服务端开发

本章介绍Kotlin服务端开发的相关内容。首先,我们简单介绍一下Spring Boot服务端开发框架,快速给出一个 Restful Hello World的示例...

32330
来自专栏java初学

关于mybatis的思考(1)——mybatis的使用实例

365130
来自专栏王硕

原 Postgres-X2部署步骤

477100
来自专栏恰童鞋骚年

Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。

25030
来自专栏Hadoop实操

如何使用Java代码访问CDH的Solr服务

CDH集群使用的Solr版本为4.10.3,Java开发中会经常使用到solrj客户端包访问Solr集群。本篇文章主要讲述如何使用Java代码访问Kerbero...

1.1K60
来自专栏分布式系统进阶

Librdkafka对Kafka Metadata的封装和操作

int rd_kafka_metadata_cache_wait_change (rd_kafka_t *rk, int timeout_ms) { int ...

32810

扫码关注云+社区

领取腾讯云代金券