4.3 数据集成快速入门：MySQL离线同步至Hive实战原创

2024-11-222024-11-22 14:25:35播放1.2K

大数据时代，随着各行各业的数据呈现爆发性增长，数据质量成为业务发展的重要基石，如何一站式解决数据集成、数据开发、任务运维等全链路问题，提升数据开发效率，实现数据价值最大化？腾讯云开发者社区和腾讯云大数据团队精心打造《腾讯云WeData大数据开发与治理训练营》，鹅厂大牛手把手带你速通腾讯数据开发治理平台WeData，通过数据集成场景、电商数据分析等大量实战，带你轻松掌握数据价值挖掘全流程，提升企业数据生产力，实现数据价值的全面释放！

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:03
大家好，欢迎大家来到腾讯云开发者社区、腾讯云大数据团队共同打造的腾讯云维利塔大数据开发与智理训练营，轻松掌握，一步到位。第4章第三节我们大为我们将为大家讲解MY思Q离线同步之him我是腾讯云韦迭塔产品经理艾ric。接下来为大家介绍的是MYSQL离线同步至黑务数据源。同样我们跟要在这里去确保我们拥有并且连接了这两个数据源，我们点击数据源管理。然后进入我们的数据源管理页面，然后我们这里可以点击新建数据源。然后我们就可以去配置我们的MYSQL数据源了，然后这里的话我们就以给大家介绍一下怎么填写，然后后续我们会用我们之前已经搭建好的一个外S数据源进行同步，那我们这里可以去填写我们的数据源名称，那显示名和描述呢，这里是选填，大家可以根据自己的需要去对这个数据源进行一个补充，那其次这个数据源权限我们可以选择项目共享或者是仅管理员。
01:17
那这里告诉我们这个名称已经存在了，那我们就可以给它起一个不重名的一个名字。那这里我们就可以选择公网实例，然后我们去填写这个连接的GDBCUURL就可以了，然后输入我们的用户名和密码，然后我们具体的填写内容的话，我们给大家展示一个已经连接好的一个MYSQL数据源。那我们可以给大家看一下，我们已经事先搭建好的一个数据源。这个就是我们搭建好的这个数据源，这里填写了数据库名称，用户名和密码，那我们可以点击数据联通性开始测试，确保这个数据源是能够联通的。其次我们也可以去测试我们的资源组和我们的数据源是否能够联通，我们也这里点击测试联通是可以发现我们这个资源组和这个数据源是都能联通的，那等会儿我们去选择我们的集成资源，在跑我们的离线同步任务的时候，就可以从这两个已经联通的数据源里去选择。
02:19
然后一切点击完成之后，点击确定就可以了。那接下来的话就是ha数据源。同样，我们在财务数据员还是点击新建。那我们可以进到我们的还有数据源的建立的页面，我们这里去可以填写我们的数据源名称，以及我们的显示名描述数据源权限和我们的部署方式等等。这里我们还是选择公网实例，我们可以选择版本，比如说3.1.1，然后这里我们可以填写我们的这个have的连接地址，也就是我们的GDBC的连接方式。那我们这里可以输入用户名和密码。
03:03
那这里我们就选择这个已经搭建好的源为大家去展示，我们可以看到我们的还有版本已经选择过了区域和网络啊，就根据我们的黑户数据源所在的区域和网络去进行选择就行了，那我们GDBC，我们就可以填写我们希望连接的这个数据源的JDBC，以及我们的用户名密码啊，这里是可以测试它的联通性。这个是测试通过的，然后我们可以继续选择是否启用这个连接，我们这里选择不启用。然后我们可以去填这个ha原数据的地址，以及我们这个，呃，是否去启用这个HAMATDB是作为原数据采集，我们这里还是选择不启用，那这里我们有三个文件是需要上传的，这个我们能够在那个配或者说是em Mr那边这个引擎下面的一个官网上面，我们是可以有一个详细的介绍和指导的，那这里我们就把事先准备好的这三个叉标文件上传到维利塔就可以了。
04:01
然后我们这个认证方式也就选择无。然后我们可以去测试一下资源联通性，如果我们要用这个资源去做我们的离线同步任务的话，我们要测一下，确保它能够实现联通的，那这个资源是OK的，我们后续就使用这个资源就好。那这个就是整个黑户数据源的一个连接流程。那这里其实呃，如果大家嗯，希望是开启这个purposes认证的话，我们这里可以选择开启，那同样也要去上传一些CS认证相关的文件，那因为我们这里选择了不开启，所以就我们这里就不用上传了。然后这个整个黑户数据源就连接完成了。点击确定，我们就可以把它保存下来。接下来我们就可以继续回到我们这个数据集成这个页面，去进行我们的离线资源同步。
05:06
那我们离线同步的话，我们点击新建。我们去给他任务命名成离线，然后我们进行创建并配置。我们这里可以选择我们刚刚确保已经联通过的啊，数据源类型的话，我们就是买S数据源，就是刚刚已经确认联通过的数据源。然后我们直接可以选择库和表，我们选择这个饮食项目。啊，这里有个切割键，切割键的话就是用于去指定这个并发任务的，我们这里可以选择ID，后面我会详细的给大家介绍怎么去设置切割键和并发。这里就可以输入一些筛选条件，那我们这里就呃整个的是整体的数据表下的同步，就不需要进行一个特殊的一个配置，如果有需要的话，我们这里是可以进行填写的。
06:05
然后在这里我们可以选择配数据源。也是刚刚我们建立好的那个数据源。那这里我们可以选择库，然后去选择我们事先准备好的要同步过来的一个。表，我们目标端是要同步到这个黑的演示项目里。那这里同样也是可以建立一键建立目标表的，当我们这个库名下是没有这张配伍表的时候，我们是可以选择一键建立的。啊，我们点进来大家可以看一眼，我们可以看到这里会有一个建表语句，这个建表语句我们是可以进行修改的，那我们修改后，我们就点击确定，就会按照我们的修改语句来进行签表。那要注意的是，这个一键线表是根据原端的这个表来自动生成的目标表结构，因为它适用于我们目标表下并没有跟原端同名，或者说是目标结构一致的表，那这种情况下我们就可以去进行新建，那我们因为这里有我们就不新建了。
07:11
然后这里有也有三个写入模式，那写入模式的话也是openend的模式，还有这个，那conflict模式和override模式，这里都会有详细的介绍，那第一个pen的话就是保留原始数据，数据以追加的形式进行写入，那这个嗯，那conflict模式的话，它就是数据冲突的时候会任务直接报错，那overright顾名思义就是我们会进行覆盖，就是在数据同重复的时候，我们会删除原有数据，然后进行重新写入，那这里我们就选择了喷的模式。这个就是一次性提交的记录数大小，默认是1024条，我们这里是可以进行调整的，那这里还有一个空字符串处理，就是当原端的数据表中有空字符串的时候，我们要在目标端去怎么处理它，我们可以选择不做处理，或者处理为呢？那这里我们就选择不做处理。
08:04
那这里呢，也会有前置SQL语句和后置SQL语句，那这里前置SQL就是说执行同步任务之前我们要执行的SQL语句和后置SQL呢，就是执行同步任务之后，我要执行的SQL语句，我们就可以直接写在这里，那我这里也就不进行一个演示了。大家可以根据自己的需要呢去进行填写，我们本次的目的呢，就是整把目原端的这个演示表的所有数据整个同步到have表，那不需要做任何的处理，这是我们的目的，所以我们就不进行这些的填写。那接下来就是字段映射的配置，我们可以选择同名映射，那这种情况下它会自动的把原端的目目标，呃，原端字段和目标端字段一致的字段进行一个连接，那么我们可以选择同行映射，同行映射顾名思义就是按照行数来进行连接。那如果我们都不满意，我们可以清除映射，或者说我们希望他是以按自己的啊意愿，或者说是一个目的进行同步，我们还可以进行手动连接，把name同步到ID，或者是把ID同步到内都是可以的，那这里我们还是选择同名映射。
09:16
那接下来我们这个数据任务的配置已经配置完成了，这里就可以去配置任务属性。这里就是资源的配置。我们资源就配置刚刚填写好的那资源，我们可以看到右上角这里也有一个快捷填写的一个地方，我们不一定非得点进这个任务属性去配。然后这里可以直接关联一个告警操作，所以我们这里就关联一个一个的告警，叫做任务失败时的告警。然后这有一个通道设置，这个就是脏数据，就是我们在数据写入过程中可以容忍的脏数据条数，那我们如果不能容忍的话，我们就设置成0就可以了，那这个并发数就是我刚刚说的切割键，就是切割键呢，就是把目把原端的表，然后切割成多个分片，然后去进行并发同步，那如果我们觉得单并发同步效率太慢了的话，我们可以选择多并发，我们可以进行一个配置，但是要注意的是并发键一定要跟切割器件搭配使用，如果我们只配置了并发数，而没有去配置切割键的话，这个切割键是不生效的。
10:22
那这里就是同步速率的限制，那这个的话就是为了保护数据来源端或者数据趋向端的读写压力，我们可以去配置它啊。的每秒钟的读写条数，那默认-1的意思就是说我们不去限制它，这个就是跟大家自己的需要去调整就可以了。那接下来的话就是这个任务调度，我们这个同步任务，它是离线也就是异步的，我们就可以去选择它到底是怎么去执行的，例如我们如果是一个周期性任务，我们去选择的话啊，就比如说我们是希望他从2014年的9月同步到201。
11:00
14年9月20号。那每一天的晚上零点去执行这个离线任务，我们这样去配置完成之后，他就会在这个时间去进行这个任务的跑任务的同步操作。然后这里还有一些依赖属性，我们这里有详细的介绍啊，就是我们会分为自依赖、有序串性、无需串性和并性，那自依赖的话就指的是任务中不同实力间的依赖关系，有序串行就是当前比如说我们依赖了前一个周期实力的状态，我们会在前一个周期实力，也就是这个任务它生成的实例运行完成之后，再去再去进行下一个周期实例的运行，那无需串行就是说周期之间没有依赖关系，如果同时存在多个实例的话，系统会随机选取一个实例进行运行。啊，并行的话指的是前一个周期的实例和后一个周期的实力没有依赖关系，那如果一个任务下它会生成多个实例，那多个实例都会同时运行。那这里我们还有一个同事等待的时间，当任务超过了这个设置的超时时间，那任务将会被系统终止，并且设置为执行失败，也就是说，如果5分钟重审都失败，那这个任务就会被。
12:14
设置为失败状态，这里还有一个失败重试次数，就是说我们这个任务如果第一次运行失败，我们应该重启几次，这里设置的是5次，意思就是说如果我们这个任务第一次运行失败了，他还会再进行重试，嗯，重试超过这个次数之后，他就不会再进行重试了。那这个任务我们就设置好了哦，这里还要提醒大家的是，如果说我们并不想配置周期任务，而是说是希望一次性就把任务执行成功，我们也就只执行这一次，我们就可以选择一次性执行，然后去选择它的执行时间就可以了。那我们本次任务我们就可以选择一次性执行。那我们确保我们的整个任务配置完成之后，我们就可以在我们的左上角去点击提交。
13:11
那点击提交之后，我们可以看到我们会进行了一个任务配置的检测，它既能帮我们保存任务，又可以帮我们去查看，嗯，任务来源端，目标端以及数据源，还有我们的资源组是否都是一个通过的状态，那这种情况下我们全部通过，我们就可以继续点击下一步，那如果有时候他会有一些告警，就比如说告诉你这个资源可能联通网络有问题，或者说我们的任务某一端有问题，这个异常我们可以选择是及时的去修改，或者说直接忽略，那忽略之后我们可能就要接受这个任务可能会提交失败的这样一个情况。那接下来就是任务提交了，任务已经提交成功了。我们现在可以返回任务列表。
14:01
我们返回任务列表之后，我们可以看到我们的任务已经在我们的页面上展示了，状态也是已提交，我们就可以选择前往运维或者删除。那除了刚刚那个快捷键前往运维之外，我们还可以在这里选择离线运维进入我们的运维列表，那这里我们可以看到我们这个任务在列表中，它是目前处于调度中的状态。然后我们这里有一些批量操作，可以进行停止，暂停或者补数据。然后我们就可以进入到我们这个任务的详情页去进行查看，那这里的话就会把指标统计以及一些详细的信息展示在这里，因为任务现在还在调度中，他目前还没有执行完成，所以说我们这里的数据暂时是没有的，但是我们可以先看一下，他会告诉我们哪些数据，那第一个当然就是我们读取的条数，也就是从原端那个表中读取了多少条数据，以及总读取的自检数。那写入目标端的条数，以及写入目标端的字节数，以及整个同步过程中出现了藏数据有多少条，那下面的话我们还可以看到我们的任务去生成了实例，那任务以实例的话去进行运行啊，我们就可以看到具体的实例生成时间以及运行时间，以及具体实例的状态。
15:19
那要注意的是，因为周期性任务的话，它就会生成多个实例，那所以这里也会以列表的形式进行展示，我们可以看到每一个实例具体的一个运行的情况。那我们这里点进实例，我们可以看到我们实例任务这里已经有一些数据了，它已经读取了10条，写入了10条，那总时长是10秒钟，然后它的流量和速率也都展示在了这里，以及它没有产生脏数据，以及这里我们的读取节点和我们的写入节点的情况啊，那都是在这里有一个详细的展示的。啊，这里还有一个运行日志，那我们第一次呢，就是完全运行成功的，所以它并没有出现重启的次数，那如果说我们运行失败的话，这里相应的的话就会出现重启，每一次有一个重启的一个情况，我们可以点到具体的。
16:15
任务里面，或者说具体的执行历史操作的卡片里面去查看我们的具体的详情，那这个就是我们整个任务运行的日志，我们可以看到这里也会告诉你说它其中时刻是什么时候，结束时间是什么时候，以及它的平均流量以及写入速度等等这些信息。那整个的离线同步的操作我们都已经完成了。我们为大家介绍完了我们整个MYS口到he离线同步的实战啊，也感谢大家的收听。

展开

我来说两句

0 条评论

登录后参与评论

作者

学习中心

腾讯云 | 技术产品

腾讯云 | 技术产品（已认证）

4.3 数据集成快速入门：MySQL离线同步至Hive实战原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐