00:00
大家好,接下来。我们将围绕我们QD的数据中台整体的一个功能架构,就是从数据规划出发,贯穿数据的采集,数据的治理,然后数据资产,数据服务发布,以及最后的资源门户和数据可视化这几大模块,系统性的介绍我们QD的数据中台,如果说要去实际呃落地应用的时候,这个实时路径大概是什么样的,本次介绍的话,重点突出的就是我们啊数据助理,数据治理啊,怎么样的去把我们这个呃,Q的数据中台能够功能上去贯穿起来,去进行的一个应用,好那首先的话,我们从这个第一块我们说的这个数据规划啊开始就是我们QD的数据中台呃,哪些功能是吧,是怎么样去做这个数据数据规划的,首先第一步就是关于我们的规则管理,那我们要知道我们在做那个数据规划的时候是吧,我们的目标是什么?就是我们要知道什么样的数据。
01:04
啊,是一个好数据,那这边的话我们呃,在规则管理里面有两大块儿,一个是稽查规则,一个就是清洗规则,这两个规则的话,我们都是按照那个国家的这个标准质量维度去进行定义的,包括清洗规则,呃。和那个那个稽查规则都是按照国家的一个标准啊,有那个相关的一个标准文档去做参考啊和设计的,那我们的清洗规则和机载规则内置的数量大概有30家,就是相当于说我们提前帮您在系统里面内置了很多能够去帮你直接做数据的清洗,数据的稽查使用的一些相关规则啊,同时这两个规则,稽查规则和清洗规则它都是能够,呃相互之间是有关联的,它并不是说呃,我稽查完了之后是吧,把问题找出来的,但是呢,没有东西去解决,就找出来,通过稽查规则找出来的,所有的一些相关问题,我们都有相对应的一个清洗规则可以去做清洗,比如说我们在这边啊,发现有这种数数字是吧,对字段范围的一个进行校验,就判断它是不是在这个合理区间,如果你发现之后,他不在这个合理区间里面是吧,那我们。
02:22
要对这些不再合理区间的那个问题要怎么处理呢?是不是,比如说我们定义的数值是区间是0~100是合理的,那超过100或者说小于0的这些数据我们需要怎么处理?在清洗规则这边就会有对应的数值边界调整,就是如果我发现了有10条数据,它是110 120 130,那这边你可以通过相关的清洗规则去配置是吧?超出100的我们都按照100算,小于0的我们都按照0去计算是吧?这边就像有对应的清洗规则啊,可以去使用,两者之间是那个相互的,然后这边的话是主要是对应那个规则的定义就是。
03:03
告诉那个用户使用者哎,有哪些规则能够用啊,所以说他你看他只有这个看的地方,他并不允许你去新增或者修改,那如果说我们想要新增一些规则怎么办呢?这边我们也是支持你去定制开发,就是需要技术人员去把这个规则逻辑写好,然后呢,在这边展示出来,那后续在相关的功能点上,它就可以去运用到啊,这个就是我们的稽查规则和清洗规则,你再去具体的呃,使用的时候可以再去选择,后面我们也会详细的介绍到啊,然后呢。关于我们左边这个清洗的一个规则的目录啊,等会儿我们在下面的类目管理啊,也会就到这边也简单提一下,就这个类目是支持我们自己去呃,去定义和修改的啊,你看准确性,完整性,这个我们都是按照那个国家标准规范去定义的,那这块的话就是关于我们的呃规则就是先要知道我们在数据治理的时候有哪些规则能够去进行使用,然后下一步的话,当我们把这些规则知道了啊,需要的规则定义好了之后,下一步我们可能就是要去对于我们的一些资产做一些那个前期的规划了,比如说我们想要什么样的资产是不是,然后呢,包括后续我们的资产要去怎么样的一个分类。
04:24
啊,以及检索快速的检索这块的话,就是到我们的标签管理,就是我们在做规划的时候啊,首先我要知道我是什么行业的啊,比如我们是我们因为做那个水泥行业比较多,后续啊,所有的一些那个案例啊,可能都会以这个呃。水利行业这个为例,去做一些那个介绍,好吧,那这里的话我先简单说一个,就是接下来我们的一个业务场景,比如说就是用水计划,这个可能是属于一个专属名词啊,但是呢,呃,主要关注的点有几点,第一个就是什么呢?假设我们是市级单位,我们要去做这个,呃,用水计划这张表,那它需要满足几点?第一个就是我要采集我这个市级单位下面三个县市水资源系统的一些相关数据啊,这个重点就是在于有三个县市的数据我要把它采集过来,第二个就是我要把这个采集过来的数据做标准化。
05:23
然后呢,治理后我自己为我的自己的业务系统,比如说用水计划这个业务是吧,去给他提供一些数据支撑啊,这个就是第二点,给我自己提供数据支撑,第三个就是我要把这个数据,比如说我治理完之后的数据,或者说我这个用水计划的数据呢,我要共享出去,第一个就是共享给同级平台,第二个呢,就是共享给那个上级单位,比如省级单位或者国家单位是吧,好吧,那么接下来我们所有的一些功能介绍,可能都会围绕着啊这个业务线去进行介绍,就是用水计划这个业务线,然后这里面的那个三点不同点是吧,分别它会在不同的模块和那个场景下用到啊,那么首先我们就说这个标签啊,标签管理它的一个业务场景,呃,举个例子,比如说我们刚刚说到的。
06:13
我们市级要制定这个用水计划的时候是吧,他是要获取下面三个县市的水资源系统里面的一个呃数据的,那三个县市它都有自己的业务系统,比如说我们就以这个河道水位啊,这个标签为例子,那三个业务系统里面,三个县市里面他们的字段名称是吧,或者说他的那个表明,那有可能都是不一样的,那最后到我们数据库里面形成我们的资产之后,你去检索的时候是吧,你可能。你要找的就只是河道鼠位这一个字段,但是呢,他可能会有那个三个三个名字而不一样的是吧,那这个时候你就可以给这个资产打这个标签,打个标签后续你就可以通过河道守卫这个标签是吧,把你想要的一些资产都可以直接检索出来啊,他就是做这个用的就可以,我可以细化到某一个字段啊,我去针对于这个字段做检索的时候,是吧,能够快速的检索出来。
07:12
我那个需要的一个数据,即使他在那个不同系统里面,所以说这个就是属于标签管理,在前期的数据的规划,就是你要去定义好我们一些统一的标准的一些检索项有哪些,或者说有哪些类型的资产。在前期的时候做好定义,定义好了之后,后续你在呃录资产的时候,你就可以把这个标签给它给打上去,同时呢,这个标签你看你打上去之后,你在这个标签详情里面就能够看到,诶它关联了哪张表,关联了哪张资产啊是吧?上都可以,比如说我们这个还是河道守卫,诶它下面有这么多种表,就是我们刚刚说的,它有可能在三个县市里面是吧,这个字段存在的不同的表里面,每张表里面它命名可能都是不一样,所以你在录这个资产的时候,你就可以跟这个标签关联上啊,这样的话,后续需要的话,就直接可以快速的这个检索啊,这个就是我们的这个标签管理。
08:13
再往下的话就是我们的主题管理,就是标签,可能是对于我们字段级别的一些规划,那主题也是对于我们在前期做数据规划的时候,相当于对资产做一个分类的一个概念,什么意思呢?就是还是以这个呃,水资源的个用水计划为例子,下面三个先是是不是他们可能每个水资源系统它都有不同的模块是吧,就是一个系统里面我们不可能说就一个功能嘛,像我们这个中台是吧,也分这种数据标准,数据资产就不同的大的模块嘛,是吧,但是呢,它每一个模块有可能是独立的,比如说我们水资源里面有可能有单独的啊水与禽是吧,这个它就只负责做水与情监测的一个模块,它里面可能就是一些水与群相关的一些监测信息啊,是吧,可能里面还会有一些那种河湖管理的,也属于水资源系统,就是属于它里面的大的一些模块。
09:13
但是呢,在数据库维度上面是吧,数据维度上面,那它的数据可能是完全不一样的,比如水与情监测,它里面展示的都是一些那种实时监测数据,然后呢,河乎管理保护可能都是一些文件数据,是不是?那这个时候我们的主题管理就是以这种主题域的维度,就是大范围的维度去对资产做一些划分,比如说我就想要水与情这种业务维度层面的一些相关数据,如果你不去做分类的话,是吧,你找的时候,你想想我们现在去数据库里面去查询的话,一般不是技术人员,你你也记不住他有哪些他的表,这个表明到底是干什么用的,你必须要去看他的那个备注描述是吧?这个相当于就是说我们从更大的维度,比如说那种业务维度去对那个资产进行分类,哎,我这个水与情监测的是吧,有哪些表啊,都是在这个里面啊,都可以能够看得到,然后呢,合乎管理的有哪些那个资产。
10:13
是属于这个下面的,这个下面呢,又可以再去细分是吧,什么表什么表啊都是可以的,所以说这个主题管理的它的一个业务应用场景,就是当我们的业务上面啊,分的比较细,分的比较多啊,业务又水利下面又会分啊,水与情又会分,这分,那包括我们做其他的做政务啊是吧,做那个智能制造也是一样,当你有大的维度的划分的时候,我们要再做数据规划的时候,提前规划好啊,我们有哪些维度的一个数据,然后呢,再通过一些标签是吧,去对那种更细维度的资产去进行一个划分啊,这块的话就是呃,主题管理。下一块的话就是我们的类目,这个类目管理,刚刚我在标签那块也特地介绍了一下,就是我们左侧的那个树结构啊,都可以在我们这个类目管理里面去自定义的去一个维护,那个不是固定写死的啊,这边就是一个啊对分类类目管理的更加的一个细致的吧,比如你的API啊,作业任务啊,数据源是吧啊,都可以在这边去做那个。
11:17
维护和管理,就你可以去自定义你的这个数据结构啊,上面这几个功能的话,就是我们在前期数据规划资产这块的一些呃基本的功能,那么接下来就要对我们的标准数据去做一个规划,就我们在呃中台实时应用的时候,前期很重要的一个环节就是数据标准,就是我们前面说的那些都是啊,可能一些基本的一些管理,那么关于数据标准这块就涉及到数据库表啊结构的,那么首先我这个从这个标准数据源啊开始介绍,因为这个是最底层也是最基础的,我们要去构建这个标准数据源,这个东西是做什么用的呢?还是以我们那个计划表为例子,就是我们县市要做的这张用水计划表,它是要获取下面3个县市水资源系统里面的业务数据,那这3个。
12:18
现是水资源业务系统里面是吧,它比如说这个河流代码这个字段它命名,然后呢类型是吧,它都是不一样的,那这个时候我汇聚到我这边来的时候,我不能够说是我弄三个字段去接收,那我肯定就要去定义好一个统一的一个标准是吧,像就我就叫叫这个,所以说数据源标准,它的这个业务的应用的场景,主要用于第一个就是这个字段,我们是一些通用的字段,就是我们可能用的比较多是吧,但是呢,下面三个现示他们也都用,那这个时候每一个表,比如说A表,B表、C表三张表里面他都要用到,那这边我可以定好一个标准,然后下次你在建建表的时候,就可以直接去引用这个字段。第二种情况就是标准的字段,什么叫标准字段呢?就是像水利行业啊,啊政务行业啊,是吧,他可能会有一些国家标准,他要求你这个。
13:18
姓名就必须是这样的,如果说你命名的不对,那可能就是不符合规范,到时候可能会出现一些那种是吧,那个不必要的一些问题,那我们就可以在这个标准数据源里面,哎,去录好,把这个标准的字段给录进去,后续你再去做数据库设计的时候,就可以直接引用,而不需要再去说啊担心呃,这个人他对标准不了解怎么办?是不是有没有可能他设计出来的字段是不符合标准的啊,这种情况就可以直接避免掉,同时呢,我们这个标准你录进来了之后,它是可以去自动的关联清洗规则和稽查规则的啊,相当于就是说我们在系统里面,第一个它是标准字段,第二个呢,我把那个这个字段需要用到的一些规则,我也都给你配置好了,后续其他人在使用的时候,只需要选择我这个字段就可以进行使用了,那这块就是前面我们在基础管理里面接到的清洗规则和居下规则应用到的第一个场景。
14:18
就是在你在定义标准数据的时候,你在这边就可以选择这个字段,后续他有可能要做哪些一些规则,就是前期规划的时候啊,比如我这个字段就是手机号是吧,我要做校验,那这个时候你可以先去啊,要去除去除空格是吧?你就可以先去配好它的这个清洗规则,后续他在做整理转换的时候,就可以直接的根据这个规则去直接使用,那包括清啊稽查也是一样的是不是啊,这个字段录的时候我就知道后续。这个字段的质量非常差,我必须要把它的那个范围全部做一个校验,那在你的录的时候你就可以啊,对它做一个匹配,这样的话就避免你后续在为那个业务应用提供支撑的时候啊出现问题。
15:06
同时呢,他也够能够看到啊,我这个字段关联到了哪些的一些表上面就是。我这个标准定义好了之后,我应用到哪个表里面啊,都可以在这里面可以进行详细的查看,包括它的一个详细信息啊,都可以查看,这块就是关于我们这个标准数据源的第一种类型啊,我们这里面有两种类型,刚刚我记到的就是数据源,那么第二种情景就是我们的代码表,数据源和代码表的区别就是什么呢?代码表就是平时我们说的一些字典值啊,这个字典值这个可能不太好理解,他说的是什么意思呢?比如说我们举个例子,冠区类型啊,或者说的这种性别啊,可能会更加好理解一点,就是它默认就会定义好啊,0代表大冠,1代表中冠,2代表小小冠,就跟我们那个业务,业务上面是吧,男女是吧,0代表男一代表女二代表未知,这种情况它都是固定好的一个值,是不是,那我们再去做应用使用的时候,诶,也允许你去定义这种类型的一个数据。
16:13
你定义好了之后,下次在表里面去引用这个字段的时候,它就是属于这种一一对应的字典值啊,是不是他存的可能是012,然后呢,在前端业务展示的时候,它默认的就会把这个0代表什么意思,1代表什么意思可以展示出来,所以说在标准数据源这块的话,我们是支持两种类型,两种业务场景的,就是一般的普通字段,第二种这种代码表,代码表指的就是针对于。我们那些有那种。映射关系的啊,一代表什么,二代表什么,这种你你也可以录进来啊,同时它也可以关联到相关的一些规则上面,后续再招治理的时候啊,直接使用。那么这些规则你把它定义好了之后,它就会自动继承了,就相当于说做了一个什么事呢?我们规则在这边一次定义,多处重复使用,是不是就是你只需要安排一个人在前期做规划的时候,把这些标准字段定好,同时呢,给他管理好相关的规则,后续再要使用的人员只需要去选择这个字段,它就会自动的去关联这些规则,那就非常的方,非常的方便啊。
17:23
解决了一些比如说同名的或者说异名的一些问题啊,这个就是标准数据源的一个作用,那么标准数据源当我们定义好了之后,我们就可以为后续数据治理的时候。用到一些那种表结构,提供一些支撑的,就是光有字段,那肯定是不行的,我们要有表是不是,那就是我们的这个啊逻辑模型,刚刚说的那些标准数据源它都是字段,那逻辑模型它的概念就是什么呢?就是我们做数据库表设计啊,用的一个一个啊一个功能,那还是一样,以用水计划为例,是不是我们各县市的把那个。
18:08
用水的一些相关需要的一些,比如说水温监测数据啊,或者说什么数据啊,是吧,我要汇聚过来,那汇聚过来之后,我要把这个数据存到哪里了,是不是,那我存的这张表,它肯定也是要符合那个规范的,而不能够说是啊随随便便的一张表是不是,那我这里面的话,我就以这个,比如说我们要把那些水文监测类型的一些数据吧,啊汇集过来,好吧,构建一张表叫水文监测类型的表。那么我们就以这个,比如说水资源啊,水位水利监测数据啊这张表为例子啊,这个就什么意思呢?就是我们要去呃建这么一张表,作为我接收呃三个县市的业务系统的一些数据,然后呢,接收完了之后,我基于这张表啊,再去可能会去做一些治理,好吧,首先的话啊,这里面第一点第一个就是什么,你要去录啊,它这个是呃支持你去手动的去创建一张表,就不需要去依赖具体的第三方设计工具了,就统一的可以去你去设计一些表结构啊,这个我就不在这看了啊,比如我们点到这个详情里面,这是这张表,然后呢,下面有它的一些相关的属性字段啊,你可以点到新增,那么这个时候的话,你就可以有两种形式,第一个就是关联,刚刚我们在标准数据源里面已经定义好的一些字段啊,你在这边就可以直接使用,如果说有些字段它并不是标准字段,那你也可以自己去。
19:38
啊,自己去命名啊,这个也都是可以的,所以说我们提供的就是一个。表的一个设计工具啊,用于统一的构建那个表工具啊,避免了那个,呃,下面的表设计人员是吧,用的都是不同的工具啊,设计出来的规范也都不一样,就是在这里面可以做一个啊统一的管理,然后还有更重要的一点是什么呢?它支持你这个物化,那什么是雾化呢?就是前面我们说的这个都是只是针对于表设计雾化的意思就是说哎,我这张表我现在已经设计好了,就是我这张用水计划表需要的这个水文监测数据这张表啊,水文监测数据这张表是吧?获取三三个先示的数据这张表啊,我已经做好设计的有哪些字段啊,这个我已经定义好了,但是呢。
20:25
还没有完完全全的在我们对应的那个数据库里面去生成,是不是因为在系统里面设计好了之后,你它是在数据库里面不会自动生成的,因为前面我们也并没有去选择他要在哪个库啊里面去生成,是吧?那么第二步重要的就是我们的这个逻辑物化,首先我们这个物化是支持。我们所有的那个就是支持那种,呃,10多种那个数据化结构类型的,比如说我们选择像DOS啊,不同的啊卡夫卡。啊,这个HDFS就是啊,包括后面都可以看一下啊,ORACLE11就是支持十多种数据库的那个雾化可以,那同时也可以满足那个信创与大数据的这个场景需求啊,都是可以的,就是你在我们的这个里面建好表之后,想把这个表物化到。
21:18
哪个库里面去,我们只是10多家的类型的,然后包括后续我们也会呃不断的叠加,满足市市场上所有的那个数据库表结构的啊,一个物化好吧,物化的意思就是指我把这张表我要生成到我的数据库里面去了,我在数据库里面要有这张表了,然后呢,这样的话才能把下面三个三个现示的数据啊放到这个里面去啊,就是做这么一个呃一个一个作用的,好吧,这张表啊,我们可以大概记下,比如叫这个ods gun沃gun那啊后面我们会以这张物化的表为例子,在做数据治理的时候,我们会把数据啊采集到我们这张表里面来,好吧,这个就是我们物化的这个这张表,这个我已经呃提前物化过了啊,可能就显示雾化失败,应该已经有了这个后续大家可以去操作一下这功能,自己建一张表来。
22:08
然后呢,再去把这张表物化到你指定的一个数据库里面去是吧?数据库类型有哪些啊,你可以在点的时候,你看这个里面啊都有好吧,这个是呢,你后续我们会介绍到啊,去连接好这个相关的数据库,你觉得这边就可以用了啊,同时这里面也能够看到一些啊,这张表的一些基本信息都可以看到啊,这就是关于我们呃逻辑物化的一个功能介绍,那下面那块的话就是关于这个标准的登记,标准登记这个功能是干什么用的呢?就是在我们前期做数据的规划的时候,是不是标准,因为有些人他可能是对标准是啊不了解的,比如说水利标准,我也不知道有哪些的一些标准文件,是不是就是在做实施,在做应用的人员,他可能是一个实施技术人员,他并不是属于这个水利行业的一个,呃业务业务专家人员,那么这个时候我们就提供了一个标准登记的功能,你可以把一些国家标准,行业标准啊,地方标准,团体的标准的一些文件啊,上传进来,上传到我们的这个系统里面来,方便那些业务人员在做应用的时候,他需要找一些那个。
23:22
标准字段设计的时候可以做一些参考,然后呢,同时我们这些。标准呢,也都是关联到具体的逻辑模型,标准数据源代码表,就是你这个表是吧,你用到哪些地方啊,能够提供参考的都在这边可以做好规划啊,同时也支持你一个快捷检索,比如说你可以去搜索啊,我要水利的水泥对象的,我要水与擎的是吧,或者说其他的啊,都可以,都可以在这里面提供了一个快速的一个呃检索功能。那么以上的话就是我们QD的数据中台在实施的第一步数据规划这一块的一个整个的一个介绍。
24:06
那么接下来就是我们第二步数据采集,我们把数据规划好了之后,就是我们要把这个下面3个先市的数据采集过来是吧,让外部的数据能够进得来啊,打破数据库的。好,下面我们来介绍我们数据采集,就我们第二块数据采集,那数据采集首先第一步的话就是我们的这个数据连接,目前我们QT数用台呃,数据连接在数据类型这块啊,支持有10多种啊,包括这个MYSQL达梦啊,国产化的非国产化的啊,包括消息队列和一些那个啊文件存储,大数据类型的啊都支持啊,这里面有非常丰富的啊,同时这里面呃更重要一点就是后续啊,我们也会呃免费的增加这种数据库类型,如果说有需要的话,可以第一时间告诉我们,我们后续会呃把这个数库类型持续的一个扩展,确保这个市面上所有的主流数据库类型啊,我们都可以支持啊,降低一些因为在中台在数据库类型不兼容的一些集成问题吧。
25:18
啊,这就是我们数据,呃,进数据采集的第一步,数据库的连接,我们支持就是包括这所有的类型,我们这边都提供了一个测一个连接的案例啊,都是可以去看,在我们商业版里面都会看到可以直接测试连接成功的,那当我们把第三方的数据连接进来之后,是不是那有一些业务场景,就比如说。我们还是以这个用水计划为为例子,呃,我们下面有一个县市,它叫A县市,那么这个A县市呢,它。他的一些水文监测数据,比如我们这个水文监测数据是不是他有可能自己新增的,新接了一台不同类型的一个数据,那他有可能会到那个某一张库里面去新建一张表,用来存储该类型的一些数据,但是呢,对于我们市级在做用水计划的时候,他这个水文监测数据呢,对于我们而言啊,都是非常重要的,所以说我要第一时间能获取到它所有的一些数据库表的一些数据情况,那么我们这个数据发现这个功能就是做对做数据库表的一个表结构变化的一个监测,比如说我们这个有一个水温监测数据发现的一个水温监测数据库是吧,我录了一个任务叫水文监测数据发现,那它下面所有的表我都会记录在这,如果说A线市那边它有新增,是不是它有新增数据库表,我这边就可以第一时间发现,同时呢,这张表里面就是这个库下面所有的表里面如果有这种,呃,增加行或者增加列这种表结构的改变,这边都可以及时监听到。
26:50
好,同时呢,支持你把这个资产,就是把这张库表提交到我们的资产里面去啊,就这个意思,这个就是关于我们这个,呃,数据发现这个功能,就是数据采集过来之后,我们可以对数据库的一些表进行进行监控,当然这个数据发现是对我们所有的这个。
27:09
数据连接里面类型的数据库啊都都支持的,那么当我们把数据采集进来了之后,是不是我们还有一块就是我们的资产地图,这个就是对采集进来的数据做了一个扩展,第一个的话就是呃,不仅仅支持库表和那个非计划数据,同时还支持一些外部API,就是我们在做数据,呃数据的时候,外部的数据除了有这种库表和非结构化的数据之外呢,同有的时候可能还会有一些API接口的形式,那么这个里面你也可以把外部API接口录成我们的资产啊,作为你数据后面数据治理的一个资产之一,后续你在做治理的时候,可以直接选择需要的相关资产,就跟搭积木一样,你选择需要的积木去做拼装啊,做组合就就是可以了。啊,然后呢,在整个这个资产地图这块呢,我们也是呃,给做了一个对资产出仓的一个分类的一个例子吧,就是分为原始层,名义层,主体层和应用层这几个大的模块,然后原始层的话,它主要是1:1,就是1:1还原同步那个。
28:19
第三方库的数据就可以了啊,你把数据通过来,后续的话都是以这个数据库为主,去做一些清洗啊,啊转换是不是,然后呢,就经过简单的一些清洗啊的数据可能会放到那个明细层,然后呢,根据那个主题的一些需要去做一些分类,把数据做分类,然后就汇聚到主题层,然后应用层是根据各个业务应用所需要的一些数据啊,转换治理清洗之后啊,就放到这个里面去,就我们可以把资产把那个数据库做好一些分类啊,这个就是关于我们数仓分层啊的一个介的一个介绍。然后呢,整个资产地图这块,相当于就是我们把第三方的所有的数据库啊,都已经连接过来了,同时呢,我们也把治理转换需要的数据都做好的那个准备是不是,那接下来就是我们呃,第三块我们的数据治理也是我们整个模块里面呃,最重要的一个一个环节吧。
29:22
那数据治理主要是集中在我们的数据研发模块,首先我们数据研发里模块里面有一个概念叫做项目,就是所属项目,我们所有的那个数据都是可以按照那个项目组,就是数据研发下面所有的功能都是按照这个项目组维度需求划分的,比如说基础线索和业务,业务数据,不同的项目里面它的一些内容都是不一样的啊,这个里面就是你只能够看到自己的这个项目组的一些资产,可以对数据去做那个呃一些分类。那首先这个项目就是在我们这个前面这个基础管理,项目管理下面这个地方去进行维护的,你录好了之后,在数据研发这个下面,比如我们有项目技术管理里面一些成员角色,你得把它加到这个项目组里面来,他才能够一起共享看到这个里面的一些。
30:13
啊数据啊,这个就是我们这个。数据治理模块有一个数呃隔离,数据隔离的一个概念,就通过这种项目组的维度去做了一个隔离,那么第二块主要介绍的话就是关于我们的数据集成啊,我们数据集成的话就是呃,有两有两个部分都可以,一个就是数据集成,一个就是数据开发,数据集成这块呃。主要的就是还原的那个,就是跟ETL这种需求嘛,就是通过拖拉拽式的编排,可视化发布的方式去完成这种任务流程的设计啊,这样的话更更加的直观啊,更加的高效,好吧,那么这块的介绍的话,我也是一样举一个具体的业务场景,比如说。我们这个现实在制定这个用水计划的时候,我需要用到A现市的某张表里面的某个字段的这个范围的某个字段的某一指定范围的一些数据,是吧是吧,大概就那么首先第一步就是我们需要把第三方数据库同步到我们的这个数据中台的这个库里面来,是不是我们前面在数据标准那块儿,呃,逻辑模型那块,我们不是已经见过,可以建自己所需要的那个。
31:24
标准标准表嘛,是吧,啊,这个时候我们一定,那这个时候在这边的话,我们就可以直接用好吧,我们首先我们说第一步把数据原封不动的那个同步过来,比如说我们这里面就有一个啊,你看呃往下找一下。水位监测数据。那么它这个的话,比如这个我们啊,从可能第三方库到我们的这个原始层是原始层是吧?啊点进去那么就可以看到它就是这样一个,通过这种拖拉拽的一个简单配置,可以把这个数据呃集成过来,然后呢,我们整个数据集成这块的首先就是输入输入了,我们这是表表结构的输入,包括那个本地的Excel啊,CSV啊,啊还包括那些实时的呀,实时数据啊,对吧,还有那个大数据平台啊,API接口啊都支持,然后呢,这里面。
32:21
系统内置了20多种对吧,常用的这种处理的组件,包括你的排序,自然的拆分等等等,这下面每一个都是可以用,就是方便你那个属于制理成不同的需求,基本上能够覆盖90%以上的ETL的这个需求啊,都是可以覆盖到的是吧?那我们这个业务场景,首先第一步就是你选择这个表输入的这个组件啊,选择这个第三方数据库啊,比如这个就是它第三方数据库是不是,那到我们这儿来,我们刚建的这张表,可能就是这张表ods层,就我们的原始层里面是吧的一张表字段可能都是一模一样啊就可以了,那后这个配完之后执行的时候啊,有两种方式,第一种就是它可以去手动执行,第二个就是他有自己的调度周期啊,根据调度周期去自动去执行,那说到执行这一块的话,也可以再给大家介绍一下,就是我们在录任务的时候啊,我们这个执行引擎也是支持三种执行引擎,首先就是那个Spark Spark的离线。
33:21
然后第二和第三个就是fnk flink的流和flink的P啊,这两种模式啊都是支持的,就针对于呃,不同的那个性能场景要求啊,你可以去配置不同的那个指引引擎情况啊就可以了,好吧,这个首先就是第一步,我们已经把那个相当于说呃,第三方数据库啊同步到我们这边来,那同步过来之后呢,我们可能还要去再去呃做一些清洗转换,是不是我们还以这个,比如这个清洗水位异常值的一些处理,就我可能需要去呃剔除一些异常值之后,然后再把它存到这个明细层里面啊,点进去之后啊,换一个,比如这个部位啊,这个它。
34:08
比如补全水位监测数据缺失的一些值啊,点击看一下啊,你看你看它就用到这个转换组件,其实这里面你不仅仅可以用到转换组件,如果你有排序的需求,你可以有自段拆分的需求,都可以直接使用,我们这边以这个转换组件这个为例,好点进去之后,比方缺失值补全为0,就只要你只缺了,我会给你补成为0啊通过这种正则表达式的,就当我们在同步那个数据的时候发现,诶他那些监测数据有可能是比如他没有上,当天设备坏了,他没有上报啊,这种是他有可能是空值,那怎么办呢?我们就自动啊补灵是吧,就这么样的啊,一个一个业务需求,是不是就把前天我要把我的数据都规整好,这样的话避免它没有空值,我后面再处理的时候会更加方便。啊,就是这样,然后呢,最后一步可能第三步就是什么呢?诶到这一步来还没有结束,因为我需要刚才刚刚呢,我们说的需求是什么呢?不仅把它要同步过来,而且我要指定某个字段的某个范围的那个数据,是不是,那这个时候其实你只是把它做了同步,做了清晰,没有达到说我要的指定字段的范围的一些数据,那这个时候我们还有另外的一个任务的一个配置的一个情况,比如说就这个转换组件水位预警等级的一个校验。
35:26
是不是我去根据它的阀值设置啊,啊分什么红黄蓝啊预警,我呢,只要需要不同预警的一些那个数据就可以了,就是我只需要指定范围值的一个数据啊,这里面都可以配置是不是,比如说50到六六十的,它就是这么预警什么什么什么预警是吧,其他范围的都是你可以去自定义,你需要什么范围的就配置什么范围,它就会输出到你的指定那个表里面去,是不是这个,你看他这个表输入到的可能就是我们另外一张明细表,是不是他就是这么个,首先把第三方数据同步到我们的原始层,然后呢,通过一些简单的清洗,我把一些。
36:05
呃,异常值字段我要给它去除掉,整理掉,然后最后呢,根据我的业务需要是吧,我自己去定义我需要什么范围的一些数据,最后呢,把它存到我们明明细存里面去啊,这个就是我们整个数据集成这块的一个小的一个案例吧,后面你可以根据业务需求去灵活的,灵活的使用不同的转换组件来满足各种需求啊。嗯,这块的话就关于我们的数据集成,那下面的话就是关于我们的数据开发,数据开发其实呃,整体的功能啊,它和和那个数据集成,它是想表达同一个目的,只不过是说了这边我们是更多以这种开发型的形式,比如以这种脚本的形式啊,目前我们支持SQ编写I Python卸尔脚本啊,甚至那个上传架包执行Java程序也都是可以的,这里面呢,所有的这个连接,就所有的这个执行引擎啊,我们都是所有只要我们在前面数据连接里面连接到了我们这边都支持搜索L开发,还去提供那个专业的这个IDE的编辑器,比如我们这边还同时还还提供这种模板啊,模板供具使用,比如说我们以这个福林可流水位信息采集,是不是就我们刚才那边也配过数据,就是通过拖拉拽的形式,而在这边呢,它就是通过这种脚本的形式啊,通过这种专业的IDE工。
37:31
去这种你自己去写这种SQL脚本的形式,然后呢,再去配置这些属性,就是你的执行,你执行的属性,你的那个调度周期的一些属性,然后它会也会自动的去执行,好吧,这个就是更加呃专业的一个数据集成的一个工具,它。包括支持你的实时的啊,Flink流,Flink批啊都是可以的,就是你需要去获取实时数据,可以在这边通过这种flink流的形式去去获取啊,以上的话就是关于我们整个数据数据治理这块的一个数据集成,就是任务数据的集成,数据的转换,数据的清洗啊,这块的一个功能的介绍啊,就是我们可以把所有的那个第三方数据采集过来,通过我们的各种转换组件是吧,你去做清洗,去做治理,或者说通过这种呃,数据开发里面SQL脚本的方式更加灵活的去处理。
38:25
啊,那在我们数据治理这块,不光光要治理,治理完之后我们可能还要去看到,哎,这个任务他执行的效果,首先第一个就是每个任务的后面,它自身就可以去看这个运行实例,然后呢,我们在这个运维管理这个模块,呃,把所有的实例都在这边集成过啊,都可以在这边看,比如你的任务执行完之后,他执行的怎么样,是不是你看每个环节,每个节点啊,都可以点击进去查看是吧,这个具体的信息。都是可以进行详细查看的啊,就执行到哪一步了,包括他这个执行的任务日志情况,就这个任务执行的任务情况,这边都是可以详细看到的啊,甚至包括一些呃,有些失败的任务之后啊,你也可以去选择重跑是吧,你看这边有重跑功能,如果说这个任务失败了,你可以去重跑一下啊,都是可以的,这就关于我们呃数据治理这边整个数据集成啊,啊,包括那个集成过之后的一个任务审理的查看。
39:21
那我们刚刚介绍的任务管理这块呢,它大家可以看到就是输入源和输出源,它都是比较单一的,就是单一的啊,后续我们也会增加那个多输入源跟多输出源的这个情况,但是呢,呃,有的时候是不是比如说我们刚刚我们说那个,呃,首先我要第一步要怎么样呢?我要把数据要同步过来,第二步我再去做那个清洗转换,是不是我是配了两个任务啊,比如说这个第编号为14和编号为9是两个任务,是不是,那这两个任务他都有自己的调度周期和执行情况,是不是那。如果说我要按照顺序执行呢,比如说我就想先执行9,再执行14,是不是,那你这边就比较麻烦,你得把这个调度周期的时间配置好,你得必须要把这个把这个9,这个调度周期呢,你不配到早上9点钟,然后呢,14这个呢,你得配到11点钟,因为你得等他这个东西执行完了之后,你再去执行这个,这个才是有效的,那这里面我们就有另外一个功能,比如我们作业的管理,作业管理他的那个主要作用就是什么呢?形成完整的数据。
40:29
流处理那个线线程啊,好吧,就是它要是有依赖关系的,我们会点进去看一下。啊,可以看到它是这么样的一个情况,就是不是就是我可以先执行多表的更新写入,然后呢,再去执行这个清洗,所谓格式的转化,这样的话就是你不管你配置的是几点钟,他都有了这个依赖关系之后,是不是他就会先执行上面,再执行下面,哎,我最后再去做这个数据运营等级券验,是不是就是把我刚才的那个场景的需求直接在这个一个作业里面把它串联起来,这样的话就是更加方便,更加便捷,效率会更加高一点,当然如果你不这么做,那也是可以的,你前提就是你得把这刚刚说的,你得把时间给呃定好,是不是你这个时间是8点,这个地方是10点,这个地方是12点,是不是,如果说这个比这个先执行,那肯定就会有问题,比如说你比他先执行之后,是不是他呢,又进来了一些新的数据,那这批数据就有延迟性,你得等到第二天他才能把这个把这个。
41:30
把这个再执行一遍,但是呢,如果你配了这么一个流程之后,只要这张表执行完,它会默认的自动的去把你这个任务全部执行一遍,这个任务执行完之后,再去执行这个所谓等级转换的这个场景是不是?所以说在这块的话,呃,应用的业务场,应用的场景还是比较多的,就是我们在任务里面,一个产品拆分的比较多,我需求是一个,但是你拆成了3个任务,但这三个任务呢,同时它又有依赖关系的,那你就可以通过作业里面去把它串联起来,或者说有并联的啊,我可以同时进行的是不是?比如说我既要呃全量更新,同时呢,我还要针对某个字段去单量更新,是不是,那也是可以的,这样的话更加会节省时间,两个任务啊,并行执行,最后呢,再汇集到这张表里面来啊,都是可以的,所以说作业管理这块呢,就是我们通过拖拉拽的方式去定义任务之间的依赖关系啊,这个关系支持你串行并行啊,后面还会增加那种条件分支啊,包括那个动态穿参啊,都是可以的,就是我可以甚至。
42:31
我可以传传一些参数给他,比如说哎,当里面的某个值,比如说当多表里面的水位预警值是不是有1000的时候,或者说呃,同步了1000条数据之后,我就开始执行,这个就可以根据你的那个设定的一些参数条件去进行执行。执行这个这个任务的关系。啊,以上的话就是关于这个任务这块的介绍,就是整个数据治理模块里面,呃,比较核心的就我们的数据的集成和数据的开发,那么数据集成把数据集成到数据中台之后,是不是我们其实要对这个数据去做一些那个检查的啊,是不是比如说我们在前面说到的这个例子。
43:21
首先我把所有的数据啊,同步到我的这个原始层来了之后,像这个水位清洗,我刚刚就直接演示了这个值,那这个值是怎么发现的呢?就是我怎么知道他有很多的异常值是不是,那这个流程是怎么发现的,那可能是你们自己就是第三方数据库,他本身他就知道这个事情,他告诉你了,那你只需要在这边配就可以了,说你或者说技术人员看过数据库之后,发现有很多的空制,那值,那针对于非技术人员是不是我怎么知道我同我我需要对我的这个数据,他满不满足我的条件,比如说我就不想要控制,但是呢,我又没办法去看到数据库,那这个时候在我们数据这里的话,就是我们要用到数据质量,我要去检查一下同步过来的数据是不是满不满足我的需求。好吧,那。
44:12
在我们系统里面就是在数据资产下面有一个数据质量模块啊,数据质量任务啊,这个质量任务的话,就是对我们数据库里面所有的表,你可以去做校验,通过稽查规则去校验他,他这个数据他满不满足你的要求,好吧,那首先的话也是一样,你要先去,呃录一个任务什么,就是你这个任务你想去。稽查哪张表,检查哪张表他有没有问题,那是我们这里面也是一样,他这个稽查对象就是支持所有一年数据库的类型,就我们刚刚在数据资产里面啊,数据连接这块,只要你连上过来的所有的事情都可以是吧。包括我们可以去关联啊,这里面可以新增多个张表啊,比如说这个数据库类连接类型是不是,你看主要是我们MYSQL的啊,FTP的。
45:04
啊,包括大梦的啊,所有的前面你所有连究过的啊,都是支持啊,包括我们前面是吧,说的在那个技术管理里面介绍的的一些技术规则,你这边都是可以关联的,就是比如我们点击新增啊,你就可以去选择我这次稽查需要用什么呢?比如说我们还是以刚才那个用户的计划的例子为主,我把数据已经同步过来了,但是呢,我这个就有特殊场景,你不能给控制给我给控制我的页面展示的可能就是没有数据,那不行,我必须要展示0,没有展示0是不是,那我就通过这种数字字段范围校验的啊,去做去做这个校验,它支持你增加多个规则啊,但是呢,如果说有些字段,比如说像这个water level这个字段,是不是你在前面在数据标准里面啊,我们刚刚有介绍到那个标准数据源已经关联过啊这个规则了,你这边点击获取稽查规则,它这边就会自动带过来,这就是我们前前面所建设的一次定义是吧,多次应用啊,就是你在其他地方啊,它就可以直接带过来,是不是包括你的。
46:04
单表啊多表啊,是不是他都可以用,就这个规则就都可以用这个,比如你录一个就是单表,你录多个,它就是多表的稽查啊,都是可以好吧,这边就是关于我们这个任务的配置,就是首先你得去配一个任务,说我要稽查哪张库里面哪张表,然后呢,同时告诉啊系统我要用什么规则去进行一个。啊,稽查那弄好了之后也是一样,它会根据调度周期啊去自动执行,执行完之后在我们的质量任务日志模块,你就可以去查看它每次执行都会生成一条这个记录,然后呢,点击详情会生成详细的这个质量报告,啊这个是稽查完之后的一个质量报告,我们找一个明显的有问题一点,比如说这个问题质量数7000多个,是不是就是我这个表里面的数据,比如说经纬度这个啊,有问题的超出那个范围的,他总共有7980条,占比大概占到50%,啊这就是稽查出来的问题是不是那7000多条数据,我们不可能说一条一条的去处理,这个时候就是刚刚在我们数据治理的时候有介绍到,你就可以通过规则去做做做处理的,那同时这里面也支持你去手动处理,就是比如我们发现这所有的问题,哎,你觉得这个其实他并不是,他并不是说数据有问题,也有可能业务定义上面他就是这样是不是,那这个时候你可以忽略的,他会直接修改的。
47:26
就是这条数据。他并不是说数据存在问题,而是业务上面有所需要,他就是这样的,好吧,就支持你手动处理啊。啊,都是可以的,是不是你从修改,比如说这个数据不对,你直接手动,数据量少的话,你可以直接手动修改啊,就相当于这个就输出的是一个问题清单,然后支持你那个,呃,批量在线修改是不是就我们刚才那个例子就是呃在这边有一个很好的运用,哎,我同步过来的数据是不是,我也不知道有多少数据是有控制的,那你就通过我们这个稽查规则你去找一遍,哎把所有数据找出来之后,再通过治理的,治理里面去配任务,是不是配那些规则流程去做处理就就就可以了啊。
48:13
行,这样的话,到这一步的话,相当于说我们已经把有问题的数据啊找出来了。然后呢,在刚才我们的任务管理里面,这里面你再可以去啊配任务啊,通过各种各种清洗规则转换组件,在这里面就是把你这个清洗到的找到的一些任务,通过这种组件的形式,或者说通过这种下面这种转换组件的形式去把它做复杂的逻辑处理啊,这到到这一步的话,其实就是我们整个数据治理的这个环节啊,就是啊就结束了,就差不多了,是不是就是同步数据,哎,通过质量去找任务,那我找到任务之后,我可以自己手动处理,那同时我也有。有那个对应的清洗规则啊,在这个数据集成模块,我就通过拖拉拽来的形式去把这些数据处理,处理完了之后呢,存到对应的那个资产里面,比如说明细层是吧,什么层里面根据你的业务需要,需要去进行一个存储,然后呢,存储完了之后,再根据实际的业务场景,我再去单独的配一些那个那个那个转换的一些组件功能,把它的一些功能。
49:25
存到那个给业务提供提供支撑啊是吧,那到这儿的话,我们转化完之后的结果,比如说我们像我们刚刚看到的说,哎,我这个数据清洗完治理完了之后,那我并不知道它到底是不是,它是不是有没有清洗啊,那清洗完之后,虽然说任务实例成功呢,那我的数据到底有没有改变呢?是不是,那这里面我们也提供了一个数据快速查询的一个方式,比如说数据查询,就在数据资产下面有一个啊数据查询,那这里面也是一样,支持所有已连接数据库类型进行在线搜索查询,什么意思呢?就是你在数据库连接里面,所有连过的数据在这边都支持那个查询。
50:07
不需要再去依赖第三方的,像什么达梦的那种啊,查询工具啊,或者说那种Le k啊这种,然后我们直接在里面内置了专业级的IDE的一个编制器啊,就像这种你可以去写SQL,同时呢,还有一些简单的快速的查询语句,比如说种s select, 点完6它可以直接查询啊,你可以查看里面的数据,好吧,我们找一个。比如说有数据的。看数据。点击查询之后,就可以直接看到这个里面的相关数据。比如说我们以下面。呃,工程监管的表里面的数据啊,这里面就是你可以去看看哎,我的这个结构到底有没有成,我的经纬度到有没有改过来是吧,这边都可以直接去进行一个快速的查询和查看,好吧。
51:04
行,那到这儿的话,我们已经完成数据中台实施的数据规划是吧,我们数据也做好了规划,然后呢,把需要连接的数据也已经连接过来了,同时呢。为我们这个数据治理提供了支撑,然后呢,数据治理的整个功能模块啊,我们也都已经介绍到已经呃介绍到了。我们接下来就是那个第4步,是不是我们的数据呢,经过治理之后形成了,也形成了资产,是不是,那我们要。能够快速的看到我们这个数据的一个一个一个分布情况,是不是就是我们的数据啊在哪里啊,怎么用,有什么关系是吧,这种我们要能够及时查看到这个呢,就是为那个业务人员他们提供那个支撑的,就是我需要我需要用到什么数据的时候,我能够快速找得到,哎,同时我还能找到他那个相关系的一些数据是吧,就是这个的话,其实也是在我们的这个数据资产这个模块啊,我们的资产地图啊,刚刚介绍的资产地图是为那个。
52:12
数据治理去能够提供哪些支撑,那到这这一步的时候,是不是,那我们的数据资产不仅仅说能够给数据治理提供支撑,同时呢,我们还能够把我们的一些数据库表结构啊,包括我们的一些资产情况啊,是吧,介绍的更加清楚啊,这个就在我们的这个呃,详情页面里面,比如说我们找一个刚刚看到还是刚刚的那张表,用我们应用库。啊,刚刚那个。就是我们自己建的那张表,它经过处理啊,比如这个就我们的水文监测数据,这张表是不是这张表,比如说我们是从第三方数据库里面,哎同步过来,哎又做了那个清洗转换到,嗯明细层,哎又做了那个什么字段范围的提取到那个啊应用应用层是不是那。
53:01
点进去之后,我们就第一个这个资产这里面的字段我们都能够看到的,第二个就是什么呢?它的相关数据我们都可以在这个资产详情里面进行一个实时的查看啊,包括它的这个质量是不是就我们同步过来数据,哎,我在这个数据质量这个模块,我去做了那个数据质量的稽查啊,稽查之后它的一个结果这边都是可以啊详细看到的啊,同时呢,你也可以去再次执行停止任务啊,都是可以的,包括这个就是他的血缘是不是啊,比如他原始表第三方库就是这样的啊,过来之后通过这种单表的集成是吧,是什么任务,然后呢?啊,通过这种呃增量,然后呢,时间增量这种之后到这张表里面,到原始库里面,原始库里面再往后是不是再往后哎,通过什么清洗,它后面都会有这么样的一个血缘关系的一个展示啊,都会能够查到。就这个是针对于我们单个资产里面啊的一个讲,就是全方位的展示这个资产的信息,包括他的是哎结构啊是吧,啊数据啊,啊质量啊,啊上下游血缘关系啊是不是啊。
54:11
都能够详细的看,然后通过这种图形化的展示啊。上下游这种依赖关系就更加清晰,是不是我不仅仅能够知道这张表的数据是长什么样,同时呢,我还能知道,诶,他是这个流程什么样,就是从哪儿来了,最后呢到哪去了啊中间这个过程是怎么怎么变化了是吧,实现这个全链路的一个追溯啊,都是可以,这是可以的,是不是这个就是我们刚刚啊,从第三方库同步到我们原生库的一个操作是是那后面是不是,如果呃是还是基于这张表做的,他这个图谱就会全部展示出来啊,这块的话就是关于我们这个资产地图里面啊,对于数据的一个分类呀,包括数据的一个全面的一个展示的介方,其实包括这里面它不同的类型,你打上标签之后是吧,还比如这个河道水位就这个表,他可能就比是跟河道水位啊相关的一些那个那个那个数据了,是不是那。
55:07
到这儿的话,其实我们数据动态是里面,前面的规划啊采集,我们刚才也说过了啊,这里也说过了,最后来形成资产,是不是在资产里面,我们能够以更加更加那个清楚的形式把它展现出来。其实我们整个中台内部的事情基本上就已经做完了,但是呢,整个实施路径这块他还没有结束,一般我们治理好的数据你要用起来,是不是就是我不不是说我把这个数据来同步过来清啊,通过了各种清洗啊,转换呀,治理好,治理好了之后呢,就放在这儿了,哎,我自己知道在哪,那是不那不对,是不是就是还是我们最早说的那个水泥业务场景的例子,我把A线市的水文件是同步过来之后,哎,我又质疑了,又放到应用层里面了,但是呢,我要把这个数据用起来,用起来就是刚刚最早的时候,我们就说到有两种图径,第一个你给自己用啊,这种情况我们就不说了,那么第二种情况就是什么呢?我们要给同级单位用,或者说我给上级啊,给同级单位用,那这个时候我们就只能能够通过这种API服务的形式去把这个数据啊发布出去就是。
56:15
以API接口的形式同步给第三方使用,就是我们要让数据真正的用起来,那这里面的话,我们就是提供了全流程可配置的API发布服务能力。啊叭,如说这个是不是这里面的POS的请求,Get请求啊,都支持,这里的服务的返回格式列表分页详情啊都支持,包括这里面的一些黑名单,IP黑名单是否限流,是不是状态啊都支持啊。包括你这里面的配置方式,包括你的CL脚本,单表向导,第转方第三方服务啊都可以的,赛脚本是不是数据源也是一样,所有的只要我们前面在数据连接里面查询过的数据啊,这里面都都都都支持就是。
57:08
啊,单表向导的,嗯,好嘞,同意。嗯,同时也支持你接口在线测试,就是我把API接口定义好了,是不是我要用哪张表的数据,我要把哪张表的数据共享出去,这里面前期的数据配完之后呢,你也可以支持在这边通过这种接口,哎,你在线试试我这个接口到底行不行,是不是,那也可以测试一下,这边都是对于API接口的一个定义,你在系统里面可以去自定义转发写SQL脚本,然后去定义这个API接口啊,都是可以的那。我们给第三方提供API的时候是怎么提供的?首先比如说我们举个例子啊,我们要把这个提供给我们是市市级的那个水资源管理部门,哎,我要提供给同级的某一个部门是不是,那他这个部门呢,是干什么用的呢?我要做好记录,我才能给他用,那这块就是关于我们的这个应用管理,比如说他有可能是同级别的灌区信息化管理系统,就是他们是负责灌区的是不是,或者说他们是负责防汛的系统,那首先我要把它录到我们的这个系统里面来,因为你要用我的东西,我肯定对你要做做好那个管控是不是,要不然最后我都不知道我给哪些那个统计单位使用的,我要把你这个系统录进来,然后呢,录进来之后,系统会自动的生成一个应用密钥啊,就这个这个应用密钥呢,只能通过线下的方式,比如说你们线下把它。
58:34
给那个给这个给到这个统计单位的那个相关的一个负责人,后续呢,他们的技术人员是需要使用我们的API接口的时候,后面我们会有一个资源门户,这个等会会介绍到啊,就是他每次得把这个密钥带着,然后呢去请求我们的这个,呃,相关接口是不是,那我们这里面的话就是通过这种认证的方式,身份认证的方式啊,采用就是行业标准的奥斯two协议进行认证,也是非常的安全,确保那个调用过程安全可靠啊,实现API访问,这个身份识别和权限控制,是不是就是通过这个密钥的形式去控制它,这样的话,我既能够知道包括这个API接口分享给哪些人应用了啊,同时呢,也知道。
59:15
同时呢,也保证了他们的安全啊,那到这一步的话,相当于就是说我们已经把API定好了,哎,需要用的人你得先把一些信息告诉我,模组好录制,那在这个用的过程中,其实会有一些数据安全的问题,什么问题呢?比如说有些像呃,个人的基本信息,手机号,身份证证号这种我们不能够直接暴露,是不是,那在我们数据资产里面有一个敏感等级的配置。你可以去自定义这个敏感等级,比如说一级是绝密,二级是机密是不是,然后呢,它是根据这种替换服务替换的,比如说你把所有的内容全部替换为新星星,或者说从起始位到结束位把它替换,为什么内容啊,都是可以的,录完之后呢,在就是这边是配置敏感等级,配完之后呢,在我们那个资产地图里面,因为你对外提供的API接口其实都是我们的资产,是不是?比如我们点进去某个资产之后,我们还是找一下刚才我们的那张表,有些表没有数据啊。
60:18
找一下我们明细层原始户的一个一个表,比如我们这张表里面,哎,这个字段啊,举个例子,我们这个。观观测时间这个字段是吧,我要脱敏是吧,我要做做一个替换,我这边只要选择相对应的敏感等级,你那边配好之后,他这边就会做自动的一个替换,其实做的就只是一个脱敏,避免我们在对外提供第三方接口的时候,是直接暴露的那个原始数据。啊,这块就是关于我们数呃服务的发布,就是我们要把自己治理好的数据啊,通过API服务的方式给用起来,同步给第三方,让他们能够用,那我们把API接口也定义,定义好了之后,是不是,那我们怎么样,就是第三方他怎么用呢?他们也没有我们这个平台的账号,就是他们也没有说,呃,他也没办法直接去用这个API,那这个就是最后刚刚我们也提到的话,资源门户就是我们要把这个数据共享出去,就是刚刚发布好的数据啊,我要通过某个平台把它共享出去,那在这个里面我们有一个资源门户的这个页面。
61:28
这个页面也是一样,就是我们采用的是前店后场的一个模式,什么叫前电后场呢?就是这个就是电。前店后场就是我们的数据中台,中台就是我们的厂,相当于这是个门店啊,就是我们整个数据中台的门店,所有第三方需要用到的数据,你都要在这个啊门店里面去去采购,就形成这种低耦和高可用的数据共享体系,就是第三方也是一样,他要去啊申请我给你开账号,开完账号之后你才能登到我们这个门店的这个页面里面去申请我们的一些API服务接口,比如说我们刚刚是吧的那个使用数据啊,这是只是举个例子啊,你可以在界面去申请,申请完之后你就可以使用,同时这里面他也能够看到。
62:12
这个API接口的请求实例,包括这个返回实例啊,都是都是可以看到这样的话,就是保证了一个什么效果呢。同级单位的第三方平台,他不需要去登录我们的中台,或者说不需要去,呃。说申请我们的API接口,我们给他一个API接口的,有哪个不需要,他直接在我们的这个资源门户页面就可以用,而且这个资源门户申请接口就可以了,而且我们这个资源门户都是独立的账号体系与用户体系,就是什么呢?他跟数兄台。是不相关的用户体系,你一拨人是是专门做数据平台的一些治理啊,啊规划呀,是吧的一些工作了,另外一拨人是负责使用的,或者说给第三方提供什么,你就直接在这里面去申请就可以了,这里面是不是,然后我们这边也会统计啊,这个接口的使用的数量啊,每个资产发布了多少条,还有一些动态,如果有新接口,用的比较多的接口啊,都可以发布,就是包括这边就是做申请应用的后续的,如果说对哪块接口的数据有问题,你这边也可以去做维护,是不是包括那个数据上面,哎,我想那个第三方平台直接给我们的那个,呃,数据库里面去填报一些数据也是可以的,但这个填完之后我们会有一个审核,包括我们还可以去共享一些资料啊,都是可以的。
63:34
啊,然后呃,到这一步的话,我们整个数据中台的就是前面说的那些核心流程啊,基本上就完了,好吧,就是把数据我们也现在共享去共享出去了,那最后一块的话,还有一块就是关于我们的呃,数据可视化,这个数据可视化的话,我们集成的是那个第三方的一个报表,积木报表啊,大屏啊,包括这个报表啊大屏啊,还有医保盘啊这三种就是。
64:01
推出的是积木的免费外表,只是用户从拖拉拽的形式,里面有一些案例模板。啊,都可以去去去使用。那我们找一个可以看一下,因为它的这个是他的模板数据,它这些都是通过拖拉拽来的形式啊定义出来的这个测试单选据。啊,这边有一些图层,你可以自己去拖拽啊,这个配置数据源都是可以使用,但这个平台是我们做的那个集成,和我们数据中台它本身是没有任何的没有任何的关系的,后续的话可能会考虑做一些这个两者之间的打通,好吧,就是采用的是第三方积木报,那以上的话就是关于我们整个数据中台功能的介绍,我们围绕的是以数据治理为核心,是吧,把整个业务流程串联起来的,而不是说针对于某个功能点的单独的一个一个讲解,就是哎,我这些系统,呃,这里面这些功能在不同的业务场景下是怎么样使用,然后呢,流程上大概是什么样啊,主要是围绕这个点去做介绍的,然后后续的话也同步的会再去针对于某些点啊,做一些更详细更深入的一些讲解,好吧,包括这个里面,你看我们也会做了一些啊,新用户的引导,如果说有疑问的地方,我们这地方可以点击这个帮助文档啊,这边都有详细的使用说明书介绍,包括用户管理手册啊。
65:27
针对于那个技术人员,还有一些部署的文档啊,支持。多种模式的部署,快速部署,本地部署和本地源码的启动啊,这个是我们QD的数据中台的一个官网啊,对以上的话就是关于整个呃,QT的数据中台介绍。
我来说两句