00:00
好,那现在我们就只剩下最后一个模块了啊,就是可视化模块啊,这个模块的主要作用呢,就是对数据质量监控的结果进行可视化展示啊,在这儿呢,我们采用super set进行展示啊呃,Super set我们之前已经学过了,对吧?其实用起来是比较简单的啊,所以在这儿呢,我们快速的演示一下就可以了啊啊,那现在我们先启动super啊,那之前我们应该是写了一个super赛的启定脚本对吧?那现在呢,我们使用这个脚本启动一下来,我们home at Google b使用绝对路径找到这个脚本对吧?完之后呢,传一个start回车。啊,回来之后你会发现啊,那这里边是不是给我们报了两条错误啊,对吧,什么错误说这个,呃,Command not fund,还有记unicorn这个command not found这是为啥呀?呃,这个我给大家解释一下啊,首先大家先注意观察一下,就是这两个命令我们肯定已经安装了,没错吧?啊那所以说它出现command not found这个肯定是因为它没有位于pass这个环境变量下,对吧?啊那但是我们之前使用是没有任何问题的,对吧?那这到底是怎么回事呢?
01:02
啊,其实原因呢,主要是因为我们的用户是不一样的啊,那之前我们是使用艾特硅谷这个用户去安装的迷你康达,并且初始化的迷你康达对吧?那所以说迷你康它的环境变量的相关配置呢,都位于艾特硅谷的加目录下边的点RC这个配置文件当中,对不对?我们可以去看一下我们CD的home at硅谷对不对,那这里边是不是有一个点BY是RC对吧。OK,大家注意观察。这个是不是就是迷你康大与环境变量相关的配置啊,没错吧?啊,但是这个文件呢,大家一定要注意一下,它是不是只有当我们使用艾特硅谷用户登录的时候才会去加载啊,对不对,我使用root用户去登录的时候,它会加载艾特硅谷加录下的点BY12C吗?它是不会的啊,它只会加载他自己的加目录下边的点BYC,这个一定要注意啊,那现在就是因为我们使用的是root用户登录的,所以说诶,就会出现咱们这个command not found这个问题。啊,那这个问题怎么解决呢?其实也不难啊,在这我们使用速度杠I-U,然后呢,艾特,诶硅谷哎,我们切到艾特Google用户去启动super就可以了,来start回车。
02:10
啊,那现在呢,这个super set应该就已经启动起来了啊,那现在呢,我们去访问一下它的页面啊,那它的端口号是多少,大家还记得吗?这是我们自己配置的对吧?我们当时给它呃配置的是8787啊,然后回车。啊,那现在这个super set就已经启动起来了啊好,那现在我们登录一下啊,就还使用我们之前的管理员用户登录就可以啊,我这是艾特硅谷,然后登录。啊,好,那现在super就已经启动成功了,好,那现在我们就可以使用super去展示数据质量监测的指标了啊,那我们使用它展示的第一步是不是就是对接数据源,没错吧,那数据源大家还记得怎么对接吗?其实不难,对吧,我们点击date里边是不是有一个database啊,对吧?我们需要先配置一个连接点啊,点完之后这已经有一个之前的连接了,对吧?我们再新建一个啊,点完之后在这儿我们需要写一个名字,在这儿我就叫做呃,Data supervior就可以superr啊,VISO啊好,那下边是不是需要写一个uri啊,对吧?这个uri的格式大家要按照这个来啊,那完事呢,文档当中已经给大家提供好了,我们直接复制一下就行,哎,CTRLC拿过来,然后放在这儿啊,CTRLV,然后有一点大家需要注意一下啊,就是用户名,密码,主机名啊这些呢,大家需要根据自己的实际情况进行相应的修改啊好,那如果没有问题的话呢,可以点一下下边这个test connection测试连接点啊,如果右下角出现connection looks good,那就说明我们已经连接成功了啊好,那完了之后呢,我们往下拉啊,下边有一个I点一下。
03:37
啊,那这个连接咱们就配好了,数据库的连接配好之后,我们是不是就可以去对接一张一张的表了呀,对吧?这个表怎么对接,是不是还是点data data里边是不是有一个data size对吧?这个data set数据集呢,指的就是我们的表啊,点那完了之后呢,这里边已经有之前我们对接的一张表了,对吧?那现在我们再对接一个新的表,点击啊,New data set。那后呢,选择我们刚刚配置的date supervisor这个连接,那之后呢,选择哪个库啊,是不是选择date supervisor这个库啊对不对?下边是不是就可以选择这张库里边的表了,对不对?那这里边你想要展示什么指标就选择哪张表就行了,这理论上我们这儿所有的表都给它选出来啊,在这儿呢,我就演示一个就行了,比如说诶,我想展示的是数据量的每日环比增长啊,那我是不是就可以选择day on day这张表啊,对吧?点那点完之后往下走,下边有一个爱的。
04:27
好,那这张表我们就已经对接上了啊好,那至此呢,我们的数据源就算已经对接好了,那对接好之后呢,我们接下来要干啥?接下来是不是就可以去创建一个空白的dashboard呢?然后呢,再往里边画图了,对吧?啊啊,那现在我们去操作一下啊,首先我们先点击dashboards啊,然后呢,创建一个新的dashboard啊,在这呢,我们可以先给它起一个名字啊,比如就叫做数据质量监测啊来数据质量啊,然后监测啊好,那完了之后呢,我们直接点击C物保存啊好,那现在我们这个空白的dash报的就创建出来了,对吧?那接下来呢,是不是就可以去画图了呀,对吧,我们点击chars。
05:04
啊好,点完叉之后呢,我们点击新建啊,嗯。点点完之后呢,选择我们刚刚所对接的day on day这张表,然后咱是不是得选一个可视化展示的图表类型啊,对吧?OK,我们点一下啊,那这么多类型我们选择谁是比较合适的呢?啊,其实在这儿呢,我们选择折线图就可以。啊,那这个折线图啊,那咱们的横轴是啥呢?横轴就是日期,我们一天一个统计结果,一天一个统计结果啊,那纵轴是啥呀?那纵轴呢,就是我们的统计指标就可以了啊完了之后在这儿我们可以有三条线啊,三条线分别是啥啊,分别是下线上线以及统计结果。OK啊,那这样一来呢,我们这个数据呢,就能够非常清晰的展示出来了啊好,那现在我们选择折线图,然后呢,把这个图表创建出来啊。啊,那装出来之后呢,我们就可以去做相应的配置了啊啊,那现在我们把这个最左边的这个栏给它收起来啊啊,那现在我们开始配置,首先这个位置啊,选中一个时间字段,它已经自动往选中了,对吧?然后呢,还有一个是时间的力度啊,我们就用D就可以了,然后再往下,这是不是需要选择一个我们展示的时间范围啊,对吧?那我们要用它这个默认值拉week啊,咱是没有数据的对吧?啊,因为我们呃,Day day这张表当中呢,现在只有一条统一结果对吧?那日期是哪一天,我们可以去看一下啊来我们找到day day这张表。
06:22
是不是只有6月18号这一天的数据啊,对吧?那所以在这儿呢,我们使用这个默认的过滤条件,不行,咱们可以改一下,改成啥,可以改成no future,对吧?咱不让它过滤了,就是负无穷到正无穷,然后点击,呃,来啊好,完之后我们继续往下走啊,那下边呢,是不是就是我们的展示指标了呀,对不对?那刚才我们提到了我们这个指标呢?呃,我们可以展示三条线,分别是上线下线以及中间的统计结果,没错吧?那现在呢,我们就可以去配置这样的三个指标了啊来,我们先点第一个啊,这边我们选择simple,完之后呢,我们选择column column里边呢,我们先选一个value吧,啊,这是我们的统计值,对吧?啊,那下边需要选择一个聚合函数,那在这边呢,我们直接选用sum就可以,对吧,因为它会按照日期,按照我们前面那个时间力度进行聚合,没错吧,那当然我们现在一天是不是只有一条数据,所以它求不求和结果都是一样的啊好,那完了之后呢,我们上边可以给它起一个别名啊,比如说这个呢,就是我们的统计值在这是啥呀,是不是数据量的每日环比增长啊,对吧,那咱们就写一个。
07:22
每日环比诶增长好,那完之后呢,我们点击C保存好,那现在第一个指标是不是就有了,那也就是我们现在已经有一条线了,对吧?好,那现在我们再添加第二条线,点完之后点simple,这时候呢,我们诶添加这个最小值,也就是下线对吧?完之后呢,选择萨姆求和就可以,那上面呢,我们给它来一个下线。好,点击自有保存完之后呢,我们再添加一个上限啊,那我们选择simple之后呢,选择value max啊,那之后呢,我们再选择sum啊,上面呢,我们也给它起一个别名,起名为上限啊来上线好,那完之后呢,点击C保存好,那这样一来呢,我们这三个指标就都添加完成了,完之后呢,我们还得再添加一个过滤条件啊,添加什么过滤条件啊,给大家解释一下啊来我们打开这张表啊,来看一下啊,就day这张表当中呢,它会存储我们数仓当中每张表的数据量的每日环比增长。
08:19
当我们去展示的时候呢,每张表咱是不是得分开展示啊,没错吧,那所以在这呢,我们需要加一过滤条件,比如说哎,我这个图要展示的就是ODSO这张表的数据量的每日环比增长对不对?那所以说我们应该是不是加一个过滤条件对不对?来添加过滤条件完之后呢?呃,应该选择哪个列呀,是不是应该是TBL这个列对不对,应该是等于,等于谁就等于这张表的表对不对?那这样一来我们就能够把ods info这张表的统计结果过滤出来了啊,然后之后呢,我们点击C保存啊好,那现在我们需要配置的选项就全都配完了,那这时候我就可以点一下这个run query了啊点。好,大家注意观察啊,这个结果呢,就已经出来吧,但这个结果呢,看起来有点别扭对吧?啊,在那做的明明是一个折线图啊,但是折线去哪儿了,没有折线对吧?啊,这咋回事啊?诶,这其实是因为我们现在只有一天的数据,其实这个数呢已经出来了,再来看已经有数据了,对吧?啊,OK,那我这儿呢,为了让这个效果更加的明显啊啊,我们可以手动的往day on day这张表里边再插入几条数据来,我们点新建查询啊,在这儿呢,我准备了几条这个in的语句来,我们CTRLC拿过来啊,完了之后呢,在这儿执行一下CTRLV啊,我们全部运行。
09:30
啊,好,那现在我再去查看一下那这张表的数据啊,好,那现在是不是有了十八十九,然后一直到25号的数据了,对不对,那完之后呢,我们再返回super set啊之后呢,我们再点一下这个run啊,啊大家注意观察,那现在这个图是不是就已经出来效果了,没错吧,OK啊,大家注意观察,里边一共有三条线啊,这个是下线啊,那这个呢是上限,那中间这个曲线呢,就是我们的诶统计结果你看啊,是不是有超出范围的,有在范围内的呀,对吧?啊好了,那这个图咱就做完了,那做完之后呢,我们在这儿呢,可以给它起个名字啊,这个什么名字呢?比如说就是ods层的order in for的每日环比增长对不对?
10:11
好了,那这个图我们就已经做完了,做完之后呢,我们可以点击一下这个save保存给它,保存到哪儿,是不是保存到我们之前创建的数据质量监测的这个带SHSPA当中就可以了呀,对吧,点一下点完之后点击save啊好,那现在我们就可以去带报当中去查看这个图了啊,点一下完了之后找到数据质量监测。哎,那这个图呢,就已经出来了啊,OK啊,那其实我们其余所有的指标呢,诶都用这种方式去做就可以了,对不对,因为我们每个指标是不是都是有一个上限,有一个下限,而中间有一个统计结果呀,对吧,那都用这种方式去做图就行了,其余的呢,我就不再一一展示了啊,那至此这个数据的可视化我们就讲完了。
我来说两句