专栏首页acoolgiser_zhuanlanETL工具——datax 使用总结

ETL工具——datax 使用总结

概述

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。换言之,就是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

DataX 是其中一种。

DataX 是离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

开源地址:https://github.com/alibaba/DataX

根据自己在使用过程中的理解,总结要注意以下几个问题:

① 源端和目的端的同步字段需要一 一对应;

②对应字段的字段名可以不一样,但是字段类型需要一致,比如都是string,double,date或objectId类型;

文本类型字段的同步写法:

{
     "name": "text",
     "type": "String"
},

数值类型字段的同步写法:LONG 或者 Double

{
     "name": "number2193854",
     "type": "Double"
},

数组类型字段的同步写法:

{
     "name": "input_1605596298817",
     "type": "array",
     "splitter": ","
},

日期类型字段的同步写法:

{
     "name": "time",
     "type": "date"
},

ObjectId类型字段的同步:

{
     "name": "_id",
     "type": "ObjectId"
},

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

    ☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreaSets ]

    Spark学习技巧
  • 系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

    ☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ]

    用户1564362
  • 大数据平台 - 数据采集及治理

    ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与...

    端碗吹水
  • 构建技术中台——基于SQL的批流一体化ETL

    本文介绍了 SparkSQL 和 Flink 对于批流支持的特性以及批流一体化支持框架的难点。在介绍批流一体化实现的同时,重点分析了基于普元 SparkSQL-...

    yuanyi928
  • 「集成架构」2020年最好的15个ETL工具(第三部)

    最后,该数据被加载到数据库中。在当前的技术时代,“数据”这个词非常重要,因为大多数业务都围绕着数据、数据流、数据格式等运行。现代应用程序和工作方法需要实时数据来...

    首席架构师智库
  • python ETL工具 pyetl

    pyetl是一个纯python开发的ETL框架, 相比sqoop, datax 之类的ETL工具,pyetl可以对每个字段添加udf函数,使得数据转换过程更加灵...

    砸漏
  • Hadoop的数据采集框架

    问题导读: Hadoop数据采集框架都有哪些? Hadoop数据采集框架异同及适用场景?

    叁金
  • 「3306π」沪江:从 SQL Server 到 MySQL (一):异构数据库迁移

    本系列文章就是向大家介绍, 从 SQL Server 迁移到 MySQL 所面临的问题和我们的解决方案。

    田帅萌
  • 数据平台的那些事(1)

    这篇文章和大家谈谈数据平台中的数据传输层,以及为什么需要数据传输,有哪些解决方案和应用。

    哒呵呵

扫码关注云+社区

领取腾讯云代金券