00:01
嗯,大家好,数据社又来跟大家一块学玻璃卡了。然后这一节主要讲一下卡的进阶,包括卡一些高级的分析函输入应用,呃,机器学习的情应用。足球管理。然后上一节课,我们主要讲了一些的基础语法。整体介绍,还有一些查询的优化和一些同学提的一些问题解答。下面我们来看这一节课的具体知识。第一部分讲开发管理。第二部分巡检,就是数据库的巡检,呃,很多没有买那个高级,很很多买沃卡的肯定都买了,一般都买高级服务,但是也有自己的运维人员。你自己运维的时候,你应该怎么关注,关注数据库的一些哪些东西,哪些东西,今天我给大家说一下。还有一部分是学习资料。
01:01
学习资料,这个现在上网百度谷歌你应该能查到一些。15年16年的时候,嗯,其实网上资料是很少很少的,基本上除了官方资料都有。呃,我会在这个学习资料里面告诉大家,呃,去哪儿,然后学理法。最后一部分是QA,呃,回答一个问题,嗯,有也有一个就是方案给大家讲。首先我们来看开发管理。开发管理这个主要讲一些卡的,嗯,高级函数。嗯,就是刚才说的分析函数跟机器学习函数。首先我们来看嗯,这两个上面那个这些分析函数,First video last video。呃,我不知道大家用过这个没有啊,呃,我给大家说一下这个。怎么用?给大家举个例子。你比如这是1234。
02:02
五。这是五行,然后A。A。B。C。这是数据,你比如first,然后first一般跟呃帕律逊拜。这种它是会按照你比如123455这五行五呃五行数据。AA这是一组,BB这是一组,它按照这一列分组,它就会这样分first video,你取第一个的话。它就是first,肯定是取第一个,他就会把这个A取出来。第二个就会把这个取出来。第三个分组就会把这个取出来。就是这样的值。他都会把这。每分组第一行取出来。然后last video。跟他是对应的,就是取最后一个,你可以这样理解。嗯,这个有什有什么用呢?呃有很多,就是嗯取时间时间时间数据,然后加一些就是嗯,就是事件据。
03:13
呃,状态按照这个分组的话,就可以把这个状态出来。第二个呃,力的。利的这个其实他就是把,呃,还拿刚才这个数据举例子,他是把下一行这个数据,然后移到上一行,你比如利的一。它就是往上移一行,就是这样,它会把下一行数据给你移上去,你这样的话就可以对比你这个值。呃,这这一列的值。跟N,然后两个就是两行,可以把它放到呃列里面。把以前的列打平放成行,你这样的话就可以算下一列减上一列的值。这样就可以了。然后还有这一个函数,这个函数是干什么呢?这个函数是标准差,标准差这个概念可能很多人已经忘了这个,我们大学的时候肯定都学过这个概念。
04:08
我给大家举个例子,然后复习一下。嗯,你比如咱们那个就是NBA球员,NBA球员他的那个水平怎么评判呢。我们会看他的,呃,每一场的平均得分。呃,盖帽次数,抢断次数,呃等等一些就是评价。如果你作为NBA教练呢?你想选一支球队,然后去参加奥运会?你这时候肯定需要选那些发挥比较稳的球员。就是平时波动比较小,你不能这一场我打拿个90分是吧,下一场拿个十分。这样的话,这个球员就很不稳定,就有风险,他肯定会选那个长长的拿70分的那个标准差,就是这样判断波动性的。标准差既然是判断波动性的,那这个标准差对于我们来说应该是越小越好,也就是他越稳定。
05:06
这个时候经常分析的时候会用到这个函数。比如分析一些行为啊,或者一些其他的,就是看它波动大不大,会用到标准上这个函数。然后下面还有一个时间,两个时间函数。这个地方这个是。就是嗯,加减暂你可以求,比如一暂,然后你加后面跟个一,就是二暂。然后减一就变成上一年的12暂,他可以跟正跟负都可以对的,第这个就可以求两个时间的差。这个的可能跟有些数据库的不太一样啊。下面那个like like like,我们先看like,我们都知道like,然后后面引号,然后百分号。
06:00
它是某匹配。它后面可以跟正则表达式。你比如匹配一些IP地址啊,手机号啊,字母啊这些。这些详细的使用,官方都提供了一些案例。大家可以点进去官方的案例,不管是九点还是8.1啊呃,都一样,都都是一样的。大家可以点进去看一下具体怎么使用。然后嗯,下一部分给大家说一下,下的继续学习。嗯,数据库做机器学习,你像Oracle以前我是没用过,然后买cle也没用过,嗯,像现在的一些就是,嗯,分析数据库可能会有卡有,然后GP也有。嗯,尼卡提供的是官方,官方提供的一些函数,我们来举一个例子,然后看看。首先我们看一下回归。回归这个这个算法,也也也帮大家复习一下那个以前学的一些知识啊。
07:06
回归,他分线性回归,非线性回归。呃,如果你的回归分析中包含一个自变量和一个变量,二者的关系就是一条直线可以表达,也就是Y等于AX加B这种。这种回归我们称为一元线性回归。还有一些回归呢,它是跟多个自变量有关系的,它是AX加AX1 Y等于X1加BX2加CX3这种。它也是多元,它也是回归,它成为多元线性回归,我们来看一下Python中就是处理简单的,就是一元线性回归。嗯,这是我拿的一个,嗯,数据数据的例子,然后后面打了一个就是图做了一个线性回归。我们来看它包含哪些步骤。就首先你要读取这个数据。读取数据的时候,嗯,中间做了一个控制,然后过滤掉。
08:01
然后建立一个线性回归模型。这个里面都有一些呃包啊,它都封装好的回归,呃实际上逻辑回归啊,还有一些随机森这些算法,它都是封装好的,我们都可以直接用。然后我们型这个数据模型。后面训练完之后,我们会拿,然后预测。预测的话就是这条红线。红线就是拟合的线性回归这个趋势。这个数据的具体,这个数据的具体例子是啥?这个是嗯,车速,然后这个是转速。嗯,这个也比较符合符合常理啊,一般就是,嗯,你你档位不变的话,也就是车速,那个车速越高跟那个转速越高,它是成正比的。嗯,那我们下面会看看维卡的,嗯,线性回归,看维卡线性回归之前,我们先看一个,就是机器学习处理的必须要经过的一个一个步骤。
09:09
罗提供的一个balance。这个是干嘛呢?机器学习之前,刚才我我那个写的有读取数据,但是读取数据你这个数据是从哪来的呢。其实它中间有一个很重要的部分叫特征工程。做第一学习,你百分之肯至少70%的时间都是在做特征工程。因为算法现在包括skin啊,其他的一些呃,提供的包养都有很多,我们可以直接拿过来用,但是你做特征的时候就很麻烦,你需要把这些数据清洗做E啊,然后找到合适的指标呀,关呃关联数据啊。来做。但是做完之后呢,还会存在一个问题。呃,你比如呃呃,网上常常有的一些例子就是信用卡。信用卡欺诈。这个。
10:01
信用卡欺诈,你最后拿到这个样本会是什么样呢?欺诈用户会很少,正常用户会很多。这都符合正常的逻辑。还有一些疾病的预测。你比如癌症的一些预测呀,你拿到的数据肯定是得癌症的人很少。正常人很多。这样就会存在一个问题,你这个正负样本量会偏差比较大。这样直接拿来去做模型训练。肯定不行,你到时候做出来那个模型,呃,要不就是很容易出现过拟合。我们首先要对这个数据做处理,做处理Python中提供的有方法,像一些就是嗯,混合采样过采样。千彩样这种。然后卡这个balance就是针对这一步的。就是我要对这个数据做一些混合采样,过采样还有前采样。
11:02
提供的一些就是balance这个提供的一些参数。混合材呀材呀,我们都可以拿来用,然后把数据就是平衡成我们想要的,然后再去做模型训练。一步在做继续学习的时候都要有,像中刚才举那个例子,就是用诈,还有这种的,这种一般都是样pon中提供的算法,有像smart。子算法,这个也是直接封装好的,直接拿来可以用直接包,大家感兴趣可以上网搜一下。然后卡提供的相关函数我们可以看到。直接可以拿来训练函数,然后预测,然后最后给你对你这个模型进行一个评估。就是评估你这个模型准确度呀,召回率呀,精度呀这些参数。也有直接的包,然后对这些呃呃打出来,你多少召回率多少准确率多少。
12:07
然后还有一些ROC曲线。这些。沃尔,其实这些这方面封装的是很好,大家可以直接拿来用。然后下一部分说一下卡跟其他数据库的一些对比。上一节课有个同学提了,嗯。该怎么实现这种过程?储pthon包来进行封装一些催封装一些逻辑实现存储过程。还有一些就是跟以前Oracle的优化方案不太一样,你像以前Oracle很多都是,嗯,数据库你不用太操心,你像建projection这种,Second这种在Oracle中你就不用操心,Oracle中只需要那个索引分区这就行了。
13:07
但是我得感受他有这个projection。就是上节说的怎么建这个跟其他数据库不一样的。然后这儿。还有一个就是之前。的家以看就是些通用的有哪些?是不一样的,就是ver卡独有的,或者是Oracle独有的,因为Oracle独有的函数也比较多。嗯,大家可以看看,确实有很多还是一样的,他们都支持,一般都支持标准CQ。有可能都是一样的,大家可以看一下,你像这个取随机数它就不一样,Oracle这个比较特殊,这是Oracle很特殊。大家有时间可以看看这个。
14:01
然后第二部分给大家说一下,巡检,也就是涉及到数据库管理了。这个肯定是DBA最关心的东西。这个是作为DBA的KPI来考核的。很多公司。嗯,巡检的话,我们肯定要做一个巡检的check克力的。就是我每我每周或者是定时或者每天,然后按照这个check list,然后检查我的数据库情况。这肯定是DBA都要做的工作。嗯,这个历史里面都要包括哪些东西呢?你像硬件端口监控,然后告警。呃,就是网卡,CPU利用率,内存利用率,磁盘。错误日志。这些都是所有数据库都需要监控的。当然,我的卡也需要监控这个东西。我卡端口,你要监5433端口是不是连不通呢。
15:01
是吧,CPU是不是超过。高端印象是不是超过90%啊?然后磁盘,包括磁盘这都应该有监控的。然后这上面下面这个上次上次也讲了,就是一些存储日志。还有一些就是巡检的重点。就是检查一下异常的节点。看这个节点是当啊。就是飞up的,飞up的有有的可能有三外节点有有的集群可能没有。我们可以看一下那些就是当的节点。节点出现,虽然有这种就是嗯超过不超过一半的节点,它嗯卡数据是可用的,但是它的效率会没有全部节点up,然后这样效率高嘛,你肯定要监控的,有节点档,你要及时拉起来,然后去检查为什么档了。
16:05
然后第二个你要检查这个,嗯,我这个有一个Apple,你要检查这个。是不是这这三个是不是相差比较远啊,相差比较远了就有问题了,你这样数据库大了,就会有很多,就可能有数据丢了。还有一部分就是呃中,也就是内存是不是有很多数据。内存有很多数据没有刷到磁盘上,这也会有问题的。就是还是刚才说的,你数据库万一就是当了数据就丢失了。你要及时把我送出去,刷到热死。另外一个要检查监监控一下,嗯,就是数据的倾斜。你看看就是每个表,然后在磁盘上,嗯,分布的在每个节点上分布的是不是均匀。如果不经营,那有可能就是你second外字段选的不合适。
17:04
这样也会及时发现问题。还有我们要嗯关注一下核性能,因为作为D很多开,肯定很多人在这个数据库中执行。嗯,你不可能看每一条这个。有些CQ可能没经过你的审核,他们就上线了,但是你要通过巡检来。找出来就是执行,你比如执行慢的TOP10TOP20这种C。分析一下,让开发那个优化。比如指导他们看一下执行计划呀,或者你看一下执行计划呀。这种。还有这个检查瑞德卡这个,嗯,都是硬件检查,这个肯定是数据库都有,刚才都说了,呃,就是分布式数据库肯定都是要检查的。
18:05
另外一个就是资源池的参数。这个MPV数据库啊,它最大的并发数。是跟就是CPU的物理核物理核数有关系的。就是你这个平函数,嗯,你不是想设多大就设多大的,它数据库的平函数是跟物理和数有关系的,你想问一下这种,嗯,你没必要设那么大的平函数。他执行这个是很快的。第三部分说一下学习资料。学习资料这个,嗯。第一个就给大家推公开文档,因为刚才说了15年16年的时候。没有,没有中文的,就是学习资料只有官方文档,然后英文的那时候还不知道上哪搜,因为刚接触也不知道。大家都是从官方文档学的。幸好不是打官方呢,写的比较好啊。
19:00
从官方呢,学完之后,大家通过自己的一些实践啊,总结啊,然后在很多同学在网上分享一些博客。然后现在你们去搜也都能搜到。另外一个还有官方论坛。官方论坛他是现在才才是才叫官方论坛,以前应该是10年17年的时候,应该不是官方,他是我里白一个应该是一个员工,然后建了一个论坛。嗯,其实也跟官方论坛大差不多,大家都去上面发东西那个,呃,老版本的现在还有,然后新版本的是这个地址,大家可以看一下这上面,嗯,咱们国内的应该登的比较少,我有时候登上去看,嗯嗯,看提问题的,然后嗯。应该不像国内的。不像国内大家可以看看,就是国外的他们用卡,然后都提一些什么问题,他们提的肯定也是咱们会碰到的问题,因为大家都是用的word,都是同一套,只不过是他们用英语题罢了,你到时候你实在看不懂的话,你可以装一个有道翻译嘛,然后点一下翻译看看。
20:12
参考一下。他的,然后这个论他在发一些是。才能达到你的业务目标,效果更好。他们会写一些例子发布在上面。呃,这个这个论坛还是挺活跃的。大家可以看一下中文,现在现在没有中文论坛,之前有一个,嗯,中文域名的网站上线了,有一个论坛,然后我有,我那时候还在上面发了,但是基本上没人用。基本上没人用这个官方,就是官方可以考虑开一个中文论坛。还有一个非官方的博客。
21:00
大家可以看一下这个。这个大家应该应该都都能看出来是谁的了,这刘刘定强的做卡的人应该都知道他。呃。他是卡的大牛,然后会分享一些就是卡的使用经验,还有一些卡的,嗯,函数呀,工具呀。他都会在这个记得户本上,然后分享。大家可以关注一下他的这个及格的互补,然后上面现在已经分享了一些东西,可能有些嗯同学还没有关注,大家可以看看。跟一下跟一下大神怎么思考的,然后怎么用的,咱们学习学习。这三个,然后首先是官方文档,这个是你必须看的,你碰见一个东西你不知道,你第一个就是搜官方文档,官方文档你要当做是一个字典。这样来使用,你不需要把官方档全部备全部备掉,这样这样也不现实是吧。
22:05
你就把它当做词典来查就行了。或者下下一个离线的直接下一个离线的TMTML直接查就行了。官方论坛那个,大家有时间可以去逛逛,偶尔去逛逛,了解一下别人遇到的困难,别人提的一些问题。然后最后一问是问答。问答这个,嗯,上一节已经回答了一些问题,然后这一节还有一个问题,这个问题嗯,是很重要的。就是对于DB来说是必须要考虑的一个东西,就是数据库的备份。嗯,数据库的备份,这个是玩官方,然后我看到的。我不知道大家都是怎么备份数据库的,这个后面可以大家可以分享一下,就是你们怎么备份的,你像卡的官方提供的这个就是第一个,然后你把呃数据,然后全量备份,或者是增量增量备份,然后备份到一个指定位置,也就这是这是一个集群。
23:10
就是你现我你现在只有一套集群,你把这套集群,然后首先全量备份,然后再每天增加备份,把这个文件放到你这个集群某一台节点上某个位置。然后以防鸡群档的时候,然后恢复。嗯,这是一种方法,然后第二种的话。就是你有两个集群,这两个集群是完全一样的。就是有有三个节点都是三个节点,有六个节点都是六个节点。然后你把一个集群的数据copy到另外一个集群上,这个我不知道现实中大家有没有用啊,我感觉这个公司用这个其实成本很高的,因为我卡它是有license的,大家都知道。它这个收费的,你这样的话,你就需要有两套了吧,有两套肯定就要多掏钱吧,而且不物理机,我你像沃卡要求的物理机也都是高配的。
24:06
你这样的话就会要有很大的投资啊。嗯。其实我感觉这个两官方提供的这个有用。但是我感觉不是很实用啊。嗯,第二个的话,刚才说了花费比较大,第一个的话会碰到一些问题。就是你备份这个,因为它是备份的那个VVBR这种,它是提供的有VR命令。备份的,你到时候备份这个东西,你再找个数据库里,万一起不来怎么办。因为它那个导出来那个数据,它不是直接文本格式的,你也没法再再再看。这就是一个问题。就是你数据库都起不来了,你怎么恢复呢。是不是?你你碰到你你你万一碰到这种,你把库删了,然后再重新建,那你数据肯定就恢复不了了。
25:06
嗯,还有一种备份,就是这个是针对所有数据库都使用的。就是指物理备份数据文件。物理部分数据文件包括两部分。第一部分。那个那个写的地方有问题啊。那个重要不要。就是你现在数据算功能有很多表,你这个的表,嗯,一般存的都是明细表,都是汇总表,把这个汇总表的话。你把重要的表物理备份出来,就是备份成文本文件的。就是直接出来文本格式的,你比如逗号风格或者竖法风格这种。然后保存到一些裂上,这是一份物理数据,你备份了这个数据,因为是文本,你后面就算数据库大了,你照样能拷进去,就是重新建库,你再重新建一套库,也可以copy进去。
26:03
你这个物理数据,你这个物理表数据有了,还有一个数据不能少,就是原数据。数据包括你的表结构呀呀,视图啊,资源权限。这些你都要慰问的。这个下面这个。下面这个备份其实数据量是很小的。它就是备份一些比较结构权限,这种就是数据,这个数据量很上面,这个数据量比较大,数据量比较大,像作文的话,一般都会结合就是这种,然后你可以把这个数据备份到连份上。定期备份,你没必要把所有,你比如你现在玻璃卡上存的有两年的数据,嗯,你没要备份两年的,你可备份就是几个月的。这个是紧急的,紧急需要用的。然后你同时可以启用刚才那个就是官方的VBR。你可以启用那个,这两个都要有。还有一个就是很多公司做了做了备份,做了BBR备份,也做了这个备份。
27:06
但是他数据库的时候,他还会遇到恢复问题,不能马上恢复。这就另外一个问题就来了。就是所有。备份方案,你没有演练过的备份案,没有实战演练过的备份方案,都是耍流氓。你有了这个备份方案,一定要演练,就是你认为这个东西很完美了。但是你实际遇到的时候,你操作他就会有问题。不管你在那个测试环境或者是预预防环境,这样你一定要演练。就是你做数据库备份,不管是针对还是对针对其他的还是哈普,就是其他的一些方案。你只要不演练,他都是有风险的,一定要演练,你只有演练了才能发现问题所在。然后下面这个。博客。这是之前给大家。总结好了。
28:00
就之前总结好的一些备份资源池。然后角色包括STEM用户。这些权。就是这样被分脚本。咱可以直接拿都有。这都是通过拼接的,大家自己也能写。然后今天的内容就这么多了,大家有啥问题可以提一下哈。直播的时候看的可能嗯。第二个是跨机房迁移用的,对第二个可以跨机房迁移用。可以的,完全可以跨机房签约用。我这卡证书如何获取,我这卡证书如何获取,这个你你联系你联系官方啊,那这官方你得掏钱啊,这这都是买的,你联系官方掏钱买。
29:06
嗯,兰布达那个用户提的跨机房迁移用的,跨跨机房迁移用第二个完全可以用。你如果两个集群,然后是一样的,而且嗯嗯不算一样的吧,你如果两个集群网络是通的,你可以用呃copy,它有那个两个集群之间可以互拷数据,官方直接提供那个copy命令。管后面两个就有,你搜一下就行。还有问题吗?听直播的人可能会比较少,因为怎么说呢,Word它这个数据库本来就很小众,嗯,人比较少,所以也是网上一直资料比较少的原因,你看你搜那个或者。他都有很多资料。但是你搜很少。
30:02
嗯,第一个原因是因为它是商业的,收费的,还有一个原因就是就是使用的人确实比较少啊,你像op口也是商业的,但是使用的人多,网上资料比较多,资料确实很少。其他同学还有问题吗?有问题可以提一下。网址。微信群发的,呃,网址的话,呃,我发出来,我会把这个PPT这个都发出来的。PPT发出来的这个视频刚才也有也录也录了后期,嗯,没有看直播的,或者是想看第二遍的也可以,我会发布到这个B站上,大家有时间可以看。
31:01
还有问题吗?没有问题,就不浪费大家时间了。周末带大家工作一周了,肯定都比较忙。没有就结束了。大家有问题可以到时候我再发一个,或者发一个调查问卷,或者是直接,然后嗯,发我微信上都行,嗯,平时可能没有帮没有时间帮大家看,但是周末的话,一般我还是有时间的,我我现在虽然不用了,但是我会尽量查一下,然后试一下,嗯,给大家提供一些方案。就是大家一块儿学习嘛。
我来说两句