00:04
大家好,欢迎大家来到腾讯云开发者社区、腾讯云大数据团队共同打造的腾讯云大数据开发与智力训练营,轻松掌握,一步到位。第5章第二小节。我们将为大家讲解电商数据分析实战的数据集成部分,我是腾讯云产品经理周其仁,那在这一步中,我们将把我们新建的业务数据导入到我们的一个啊云端来,那第一步呢,我们需要来到我们的数据开发。在这边我们可以看到数据管理模块啊,然后在这里我们新建一个数据库。这句库名的话就选1。确认。
01:01
检查一下啊,一在这边嗯。那下一步呢,我们需要去创建一下这个工作流,来到开发空间啊,编排空间,不好意思啊,新建一下工作流。然后名称的话,我们就叫。1叫。商品数据开发。好在右边我们可以看到我们的一个画布。在这里呢,我们可以进行一个任务的建立。那我们先来新建第一个任务啊。第一步的话啊,我们需要去啊,同步商品的一个品类。任务名称的话,我们就叫他。同步。
02:01
商品品类。这里需要去把它改一下,我们是离线同步啊,不好意思。选择一个表单模式可以确认。那我们可以看到第一步的话需要去配置一个数据源,这里的话我们选择刚才啊新建的MYSQL。来源这个库和表啊,我们因为是这个类目表啊,我们选择categories。那右边呢,就是我们的一个目标,目标地。啊,是一个害,我选have。去想啊,库的话也是啊,我们刚刚在数据管理新建的一个1。啊选择啊表的话,表我们就直接一键建表了。
03:05
啊,为了区分一下啊。这个仓的一个分层,我们这里换一个名字啊,这个categories改成啊。Only是吧,加一个O。All the s product category.这样就建立好了,因为我们这个内部表啊,它更新比较少。在这里呢,我们可以选择一个override。那因为我们是一键线表呢,我们可以看到它底下的一个字段名都是一样的啊,这里我们可以选择一个啊同名映射。你直接给他做一个定制啊。然后我们看一下这个啊调度。啊,这里我们设置一下它的一个周期,每天凌晨只运行一次。啊,设置完成之后保存。
04:01
可以提交。啊,提交这里的话,我们需要去啊添加一个描述,我这里就直接啊随便添加一个啊。好,确认一下。那完成之后呢,我们就可以。啊,在我们的一个画布上看到刚才新建的一个任务的信息。那我们可以重复刚才的操作去见之后的表。其他的表。嗯,这里我们刚才举了一个啥名字。我们说同步。看一下啊。我们尽量去保持这个任务名称一致。好,那我这里就直接说。哦。
05:03
同步城市信息。也是一样的一个步骤啊,选择我们的一个CQL来源。城市信息我们选那个,然后目标的话是。啊,重复重复刚才那个步骤。搜一下这个1。1见金表。好,这里的话,我们按照快速文档给给给他改一下这个名字啊看一下。我们后续给的这个代码呀之类的,都是按照这个快速文档里面的名字来,大家千万要注意,一定要按照这个,如果要重复这个操作的话,一定要按照这个名字来。好,我们这里是city。这边啊,去设置一下这个调度信息。
06:03
保证提交。稍等一下。那我们可以看到同步成书信息也出现到我们的一个发布中。下一张表示我们的商品表。还是同样的一个步骤啊,我们看一下这个。那我们这是啥?啊,同步。商品信息啊,表达模式。同样的插座。这个数据源。商品信息的话是。这边的话也是一样的选择have。
07:01
缘故。然后。啊,一模宣导,然后一间建个表。这个这里同样的我们还需要改一下这个product名字啊,我们看一下这个文档中是怎么样的啊,是product product.Product.刚才好像没有这个小写。S的我看一下。没有,我们需要把它去取消一下啊,不然的话啊,后续的一个表任务活不起来。那我们现在呢,去看一下这个。看一下这个调度。
08:00
把它设置成啊,周期性运行。在可以保存和提交了。这里我写一个新建任务。这里出了一个错,看一下啊。啊,举了一个反例。这一个返利。这里的话我忘记去进行一个映射了啊,底下点一下这个同同映射再保存一下。提交。这里其实是可以写啊,比如说刚才忘记同名映射,更改同名映射,同名映射。把这个也搞明白了,商品信息。
09:01
下一个是订单信息。下一步。好,选择一下这个数据源。一样的一个操作。右边的话也是还。投的一个操作。第一幕。先建一个表。啊,这里的话啊,因为它有一个分区啊,我们需要给它进行一个分区。在快速入门文档里面呢,我们提供了一个。一个带分区的一个建表语句来找一下啊。
10:07
然后就是这,然后就是这个对好。复制一下。然后我们在这里。理解,其实这里的话,其实就多了一个这个partition。好,确认一下。那这个分区的话,我们需要去左边去啊进行一个配置。在这个筛选条件里面。去进行一个对应。这个选择一个啊。以下因为我们新建这个表嘛,它有多一个字段。所以在左边的话需要去。啊,加一个这个。一个一个分区条件啊。这里的话。啊,快速入门文档里面好像会提供一个这样一个条件,我来看一下。
11:03
我们按照这个去写进去。我们写一下。我这边这个括号好像搞错了,不好意思,这一次必须是那个大括号啊。以下呢,我们需要去啊,加一个这个对应的一个字段,这种选择一个函数。
12:06
第2段我们可以叫它。啊。看一下我论文大里怎么写的啊?这是date。那这样我们可以进行一个同名异射,然后最后一个,因为不是同名嘛,需要我们去连接一下。设置一下这个调度。保存。一下。好,我们填写一下描述啊。那。到此的话,我们就完成了所有离线同步的一个任务。
13:04
下一节呢,我们将还在这个数据开发这个模块来看一下怎么在数仓内进行一个数据的开发处理和加工。
我来说两句