展开

关键词

java整合datax最详细的教程

目录: 一、去下载datax二、依赖三、测试类四、json传参Part2今日主题:java整合dataxDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具平台,实现包括 MySQL、SQL Server 由于的例子是基于python的例子,上也很少可以找到java版本的,然后自己刚好做过,记录一下,我搜了一下,我应该是全第一篇写的datax最详细的文章。 1一、去下载https:github.comalibabaData点击下载就好了2二、依赖下载的压缩文件解压,在lib目录下将这两个依赖安装到本地将这个两个依赖安装到本地maven仓库在项目引入这两个依赖 com.datax datax-core 0.0.1 com.datax datax-common 0.0.1 同时也需要引入下面这几个依赖,否则会报错 commons-cli commons-cli 目录,在datax目录下新建test.json文件。

29330

datax_web环境搭建

方文档 datax https:github.comalibabaDataXblobmasterintroduction.mdgithub.com datax-web (https:links.jianshu.comgo 项目 * * * 我个人电脑环境 win10 python3.8.5 (或可python2环境) datax项目 链接:https:pan.baidu.coms1KfRU5SJas0C94x84W6s5IQ dataxbin>python D:dataxbindatax.py D:dataxjobjob.json 运行如图: 运行成功后如下图: 注意:python2环境python3环境运行适配的脚本版本有所不同,可在下载 python3脚本下载路径 (https:links.jianshu.comgo? IdeaProjectsdatax-webdatax-adminsrcmainresourcesbootstrap.properties 2.2 需要启动两个Application DataXAdminApplication DataXExecutorApplication 2.3 打开

10354
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年38元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    DataX、sqoop抽取TDSQL数据库中数据报Timeout的问题

    首先和客户确认,他们用的什么工具做的数据抽取,反馈是DataX。先了解一下DataX是什么东东。 image.png---图片来源于络为了解决异构数据源同步问题,DataX将复杂的状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。 还是得从DataX工具入手,分析日志发现,DataX的框架里会自动设置net_write_timeout=600,这个600s和客户反馈的没到10分钟左右就会超时的报障吻合。 查看档:netTimeoutForStreamingResultsWhat value should the driver automatically set the server setting net_write_timeout :客户在MySQL上跑不会超时应该是可能因为结果集相对小,jdbc没启用streaming result set的特性,所以不需要设置这个参数netTimeoutForStreamingResults方参考文档

    1.1K130

    关于DataX

    前言为什么写这篇文章,因为初出茅庐的时候,曾经遇到的一个面试就是DataX的作者之一,而当时我还偏偏因为业务需求做了个数据库的同步工具,我当时不知道他做过这么专业的同步工具,被虐的老惨了,他面试的其中一个问题就是 DataX的优势所以现在在来谈谈数据同步工具该怎么推销,那不就是把数据同步工具可完善,可扩展的部分尽可能的讲一遍吗首先是工具本身方面,我们需要DataX在传输性能上有保证,它采用的任务架构可以保证在单机多线程上速度随并发线性增长那么如何保证传输过快 ,导致数据接收方崩掉呢,所以DataX提供了精准的速度控制模式,可以随意调整作业速度,保证达到最高效的同步速度数据同步还需要什么? 我们需要的是配置简单,操作容易,依赖少,这也是DataX的特点上述这些都是在正常情况下的操作,我们需要应对异常情况,比如络波动,甚至宕机,所以我们需要DataX具有健壮的容错机制,对于这个,它提供了丰富的重试策略 这里给出DataX方Github地址,我并没有在推广这个工具哦,如果你们的系统用了大量阿里云提供的服务比如odps,ads,那它倒是天然适配了,用它正合适,不过如果是mysql到mysql的同步就不一定要用这个了

    93140

    图解 DataX 核心设计原理

    基于我在项目中对 DataX 的实践过程,给大家分享我所理解的 DataX 核心设计原理。 设计理念异构数据源离线同步是将源端数据同步到目的端,但是端与端的数据源类型种类繁多,在没有 DataX 之前,端与端的链路将组成一个复杂的状结构,非常零散无法将同步核心逻辑抽象出来,DataX 的理念就是作为一个同步核心载体连接连接各类数据源 ,当我们需要数据同步时,只需要以插件的形式接入到 DataX 即可,将复杂的状结构链路变成了一个星型结构,如下图所示:? 有了插件,DataX 可支持任意数据源到数据源,只要实现了 ReaderWriter Plugin,方已经实现了主流的数据源插件,比如 MySQL、Oracle、SQLServer 等,当然我们也可以开发一个 DataX 插件。

    1.3K20

    换掉 Postman + Swagger + JMeter,这 5 个 Java 项目绝了!

    DataX-Web :基于 DataX 的分布式数据同步工具,可视化操作,降低使用 DataX 的学习成本。Recaf :一款功能十分强大的 Java 字节码编辑器,基于 ASM 修改字节码。 MeterSphere功能演示Vivo、国家电、联想、可口可乐、中欧基金等公司都是 MeterSphere 的用户。 项目地址:https:github.commeterspheremetersphere方文档:https:metersphere.iodocsindex.html:https:metersphere.io JustAuth示例项目项目地址 : https:github.comjustauthJustAuth方文档 : https:justauth.wikiDataX-Web:DataX 集成可视化页面DataX-Web github.comCol-ERecaf下载地址 (要想使用 Recaf,请确保你的 Java 版本是 Java 8 或者 Java 11+):https:github.comCol-ERecafreleases

    13520

    DataX的Clickhouse读写插件

    jdbcUrl按照ClickHouse方规范,并可以填写连接附件控制信息。具体请参看ClickHouse方文档。 的机器参数为:cpu: 4核 Intel(R) Core(TM) i5-8600 CPU @ 3.10GHzmem: 4GBnet: 千兆双卡disc: DataX 数据不落磁盘,不统计此项ClickHouse 数据库机器参数为: 虚拟机配置如下cpu: 2物理2逻辑 Intel(R) Core(TM) i5-8600 CPU @ 3.10GHzmem: 2Gnet: 千兆双卡4.1.3 DataX jvm 流量(MBs)DataX机器卡进入流量(MBs)DataX机器运行负载DB卡流出流量(MBs)DB运行负载1是19229921.82360.6380.62是46151952.37920.75940.724 DataX ClickHouseWriter----1 快速介绍数据导入clickhousewriter的插件2 实现原理使用clickhousewriter的方jdbc接口, 批量把从reader读入的数据写入

    5.8K41

    DataX 开发之MySql同步到Phoenix5.x

    reader部分参数请参考MysqlReader 插件文档 writer部分参数请参考HBase20xsqlwriter插件文档这里不说怎么同步数据,方文档有说明。这里重点说采坑的部分错误1? 截屏2021-05-08 15.45.34.png原因是下载的DataXpluginwriter 文件下面没有编译Phoenix插件 下载DataX源码,自己编译:DataX源码(1)、下载DataX源码 08:00 Final Memory: 133M960M ----------------------------------------------------------------- 打包成功后的DataX

    28040

    Airflow 和 DataX 的结合

    提到的复杂的状的同步链路而 DataX 将复杂的状的同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。 (DataX 的 hdfswriter 是使用临时文件夹去临时存放数据,遇到一些意外情况导致 DataX 挂掉时,这个临时文件夹和临时数据就无法删除了,从而导致集群里有一堆脏数据)。 上也有一些文章讲如何将 Airflow 和 DataX 结合起来,比如有:https:www.cnblogs.comwoshimrfpairflow-plugin.htmlhttps:tech.youzan.comdata_platform 对于文章 1,虽然结合了 Airflow 和 DataX,但是它并没有解决 Airflow 的状链路问题,只是用 Airflow 调用 DataX 运行命令而已。 Operator 作为 DataX 的实现。

    25820

    使用Maven创建工程 原

    6、示例下面是阿里DATAX的一个pom文件,拿过来给大家当作示例展示。 4.0.0 com.alibaba.datax datax-all 0.0.1-SNAPSHOT datax-core datax-core jar com.alibaba.datax datax-transformer maven-jar-plugin com.alibaba.datax.core.Engine maven-assembly-plugin com.alibaba.datax.core.Engine datax package single maven-compiler-plugin 1.6 1.6 ${project-sourceEncoding} 四、利用Maven引入三方框架1、查找框架坐标可以从框架查找 ,或前往maven的方仓库查找:http:mvnrepository.com 把坐标写到pom.xml文件中的 内部。

    25420

    HBase数据导入工具总结

    如果是在hadoop集群上运行sqoop,可以参考Sqoop方文档进行配置。以下介绍单机版的安装流程。1.下载安装包。把文件放在~目录。 但是考虑到开发测试阶段的便利,HBase也提供了公访问的功能,我们可以通过配置HBase公访问实现在公运行数据同步任务。开通公访问开通公访问的方法参见公访问方案。 DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。 同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。使用DataX进行数据同步的步骤如下:(1)编写作业的配置文件。 执行命令python datax.py $config.json DataX的使用参考方文档:https:github.comalibabaDataXwikiQuick-Start?

    82320

    数据平台的那些事(1)

    方便使用,易运维;在络宽带一定的情况下,传输速度越快越好;可以对数据进行转换、清理。 缺点在于DataX的开源版本是单机版本的,不过就性能而言,对于十亿级左右的数据传输已经绰绰有余了。 为了提升DataX的传输效率,可以辅以分布式调度系统,将数据传输任务分散到各个服务器上减缓单机的络宽带和IO压力。 与Sqoop和DataX不同的是,Embulk支持ACID事务中的原子性,整个数据传输过程要么成功,要么不成功。但是Embulk在国内并不常用,所以能参考的资料就只有,且源码比较复杂。 connector 的思想和 DataX 很类似,Kafka可类比为DataX core,而 connector 则类似于 DataX 的读写插件,每个插件都拥有只要按规范实现相应的接口即可。

    25710

    大数据平台 - 数据采集及治理

    关于Flume的实操内容可以参考:分布式日志收集器 - FlumeDataX方文档:https:github.comalibabaDataXblobmasterintroduction.mdDataX DataX将复杂的状的同步链路变成了星型数据同步链路,具有良好的扩展性。状同步链路和DataX星型数据同步链路的对比图: ?DataX的架构示意图: ? ----Datax数据采集实战方文档:https:github.comalibabaDataXblobmasteruserGuid.md到GitHub上的下载地址下载DataX,或者拉取源码进行编译: 方文档:https:github.comalibabaDataXblobmasterhdfswriterdochdfswriter.mdhttps:github.comalibabaDataXblobmastertxtfilereaderdoctxtfilereader.md 为了实现该功能,我们需要使用到mysqlreader来从MySQL中读取数据,其方文档如下:https:github.comalibabaDataXblobmastermysqlreaderdocmysqlreader.md

    1K10

    大数据同步工具DataX与Sqoop之比较

    从接触DataX起就有一个疑问,它和Sqoop到底有什么区别,昨天部署好了DataX和Sqoop,就可以对两者进行更深入的了解了。 大数据同步工具DataX与Sqoop之比较 DataX 直接在运行DataX的机器上进行数据的抽取及加载。而Sqoop充分里面了map-reduce的计算框架。 而实际的测试中也是如此,测试一个Oracle to hdfs的作业,DataX上只能看到运行DataX上的机器的数据库连接,而Sqoop运行时,4台task-tracker全部产生一个数据库连接。 大数据同步工具DataX与Sqoop之比较 在我的测试环境上,一台只有700m内存的,IO低下的oracle数据库,百兆的络,使用Quest的Sqoop插件在4个并行度的情况下,导出到HDFS速度有5MBs 大数据同步工具DataX与Sqoop之比较

    4.7K100

    datax源码解析-JobContainer的初始化阶段解析

    datax源码解析-JobContainer的初始化阶段解析写在前面此次源码分析的版本是3.0。 因为插件是datax重要的组成部分,源码分析过程中会涉及到插件部分的源码,为了保持一致性,插件都已大部分人比较熟悉的mysql为例子说明。 的 Hook 机制,比如我们可以实现将datax任务的执行结果发送的邮箱,短信通知等从代码中看,也可以清晰的看到这几个过程:public void start() { LOG.info(DataX jobContainer jobId completed successfully., this.jobId); DataX 的 Hook 机制,比如我们可以实现将datax任务的执行结果发送的邮箱,短信通知等 this.invokeHooks preHandlerpreHandler目前方也没有实现,com.alibaba.datax.common.plugin.AbstractPlugin#preHandler方法目前是空的,所以这里我们也先略过

    12920

    深度学习 | 基于LSTM模型的黄金期货价格预测

    应广大读者盆友的建议,本期主题是基于LSTM络对黄金期货价格进行预测。1.LSTM络搭建LSTM”通常称之为长短期记忆络,它能够学习长期的规律,且能够从历史规律中提取信息并预测未来的走势。 import numpy as npdef create_dataset(dataset, look_back): dataX, dataY = for i in range(len(dataset) -look_back-1): a = dataset dataX.append(a) dataY.append(dataset) return np.array(dataX),np.array(dataY mean_squared_error(testY, c)print(LSTM模型的MSE 值为:,DNN_MSE) LSTM模型R2 = 0.958 ; MSE = 1863.52644.黄金价格预测通过

    44140

    DataX在有赞大数据平台的实践

    三、前期设计3.1 运行形态使用 DataX 最重要的是解决分布式部署和运行问题,DataX 本身是单进程的客户端运行模式,需要考虑如何触发运行 DataX。 4.6.2 与数据平台的交互数据平台提供了 DataX 任务的编辑页面,保存后会留下 DataX 运行配置文件以及调度周期在平台上。 调度系统会根据调度周期和配置文件,定时启动 DataX 任务,每个 DataX 任务以独立进程的方式运行,进程退出后任务结束。运行中,会把 DataX 的日志实时传输并展示到页面上。 4.7 考虑更多异常DataX 代码中多数场景暴力的使用 catchException,缺乏对各异常场景的兼容或重试,一个大任务执行过程中出现络、IO等异常容易引起任务失败。 最常见的异常就是 SQLException,需要对异常做分类处理,比如 SQL 异常考虑重试,批量处理异常改走单条依次处理,络异常考虑数据库连接重建。

    1.1K41

    Airflow自定义插件, 使用datax抽数

    在我们实际工作中,必然会遇到方的一些插件不足够满足需求的时候。这时候,我们可以编写自己的插件。不需要你了解内部原理,甚至不需要很熟悉Python, 反正我连蒙带猜写的。 最终,选择了集成化的数据转换工具datax. datax是阿里巴巴开源的一款异构数据源同步工具, 虽然看起来不怎么更新了,但简单使用还是可以的。 结合airflow,可以自己实现datax插件。通过读取connections拿到数据源链接配置,然后生成datax的配置文件json,最后调用datax执行。 主要思路是:hdfs创建一个目录生成datax配置文件datax执行配置文件,将数据抽取到hdfshive命令行load hdfsRDBMS2HiveOperator# -*- coding: utf- (datax)): raise AirflowException(hdfs路径填写错误,不在datax目录下) files_path = hdfs_path+*; try: cmd = self.Popen

    1.6K40

    一款强大的可视化分布式数据同步工具

    DataX Web 是在 DataX 之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用 DataX 的学习成本,缩短任务配置时间,避免配置过程中出错。 ,替换文件在 docdatax-webdatax-python3 下)Environment: MacOS, Windows,LinuxDatabase: Mysql5.7特性1、通过 Web 构建 DataX Json;2、DataX Json 保存在数据库中,方便任务的迁移,管理;3、Web 实时查看抽取日志,类似 Jenkins 的日志控制台输出功能;4、DataX 运行记录展示,可页面操作停止 DataX 进程,可配合重试策略避免络问题导致的 datax 卡死。 2.字段映射3.点击构建,生成 json,此时可以选择复制 json 然后创建任务,选择 datax 任务,将 json 粘贴到文本框。也可以点击选择模版,直接生成任务。

    14620

    DataX 二次开发之HBase同步到HBase

    需求要从一个HBase把数据同步到另外一个HBase库中,这个需求要怎么用DataX来实现了,首先阅读下方文档Reader 插件文档Hbase11XReader 插件文档{ job: { setting Usersshfworkplacedatax_testhbase11xreaderresult, fileName: qiran, writeMode: truncate } } } ] }}我们需要组装一个这样的结构让DataX 测试的话就是下载DataX源码 cd 到dataxbin 执行 python datax.py Usersxxxxxxxdataxjob45_job.json 同步成功?

    46220

    相关产品

    • 网约车系统

      网约车系统

      网约车系统是行业前沿的网约车全景配套系统。网约车系统使用的 LBS、风控、派单、结算等应用,底层基于行业大数据分析,为您提供符合网约车应用场景的个性化服务…

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券