00:00
啊,这个data.index.dex那么它就是model index这个东西,猫index这个东西,不过我在这的这个输出也够多的了啊,呃,你们看我这个录录的视频也是很多的,然后教过的这个课程应该也是很多的啊,所以呃,我是觉得也算是对得起他了是吧,也算是对得起好来看我们这个叫做层次化索引啊,层次化索引,那么层次化索引的话就是这个东西啊,就是这个东西,这里我们给他创建了一个series,在series里边我们给它指定了一个index,这个index是AAABDBCCDD,那么总共是1234567899个数,九个东西。这九个东西后面对应了九个数字,是1234567899个数字,那么这九个数字它怎么去做层次化的合引呢?就是这三个A对应的是123,来看这三个,这个A对应的是123,这个B对应的是一三,这个C对应的是一二,这个B对应的是二三,那么整个它就是个层次化的,所以也就是说这边它就是一个层次啊,这边就是一个层次,那么这边就是我们的数据,那么这边是层次,这边是数据,我们来看一下它的index,就叫做market index。
01:16
这个东西我之前给大家去讲过吧,那么上面有一个levels levels就包含两个,一个是abcd,一个是123 abcd的这一个一共有八个,这是八个吧,123456789个啊,九个,那这个应该也是,那么这九个数字就是A代表的是零啊,第一种A代表的是零,B代表的是一,C代表的是二,B代表的是三啊,它就是这样的一个对应关系。如果我们要去取来这个地方有获取啊,获取,所以取的是零的话,我们来看一下这零的是不是这个东西啊,0.104153,那么如果我们取的是这个贝零逗号二,它是不是会敢把我们的第零个和第二个给我们取出来了?也就是一和三的内容会把它取出来,取出来之后依然是一个serious,我们来看一下A1和三,然后里面是serious啊,再继续那么data的话就是这个B啊,把B的这一列全部都取出来了,看把B的这一列全部都取出来,是不是这个样子呀?啊把B的这一列,那么把B到C全部都取出来,是不是就是B和C全部都取出来呀,它跟我们之前的那个切片还不一样,这个是前B后B的对不对?
02:26
如果是index的话,那么它就是前开后闭的,没前开后闭啊,前B后开说错了,前B后开,我们来看一下它的结果啊,B和C都有啊,B的一三,C的这个一二们来看一下C,这是series的整个内容,那么我们还可以去通过这种方式去取一样的啊,通过这种方式去取,去取的是叫做B和D的内容,我们看一下B和D的内容,通过点log,然后下面的话就是可以去通过这个去取外层的数据,那么我们ABC是外层的数据,里边这个是不是内层的数据呀。
03:02
我们来看,通过A可以去取得到这个外层的数据,A的内容就是123,我们可以通过,我们也可以通过A去取到,这个叫做后面再去添加这个内容,比如说A逗号什么,去取到内部的内容吧,比如说A逗号二,就能够取到的是这个数据,A逗号二。那么如果我们要用切片的话,可以说不在乎前面是什么都去取第二个,第二个内容是不是就把前面加上冒号啊,所有的东西取第二个来看啊,所有的东西取第二个ACD有第二个都会取出,那么如果前面给的是A啊,引号A,然后后面给的是引号B,引号C吧,引号C,那么它它能够取到什么?哎,怎么感觉不对啊,引号C啊,它能够取到什么?它能够取到A里面的第二个,C里面的第二个,B里边没有第二个,所以B里边没有,B有的话也能取到。啊,B有的话也能取到,那么来再来就是这个叫做STEM sta,我们之前学过这个东西啊,大家直接复制一下,粘贴一下就知道了,如果我们可以把an sta的话,就是不是就把把这个A后面的这些东西,也就相当于是这些东西给它挪到了,给它挪到了这个位置了,挪到了这个位置,所以就变成123,那么中间会有一些空的,比如说B的第二个就没有他给的就是。
04:20
Na啊,B的第二个没有,它给的就是na OK,那么这个N代我们之前讲过啊,但是没讲过这个有空的情况,我们上面这个,比如说一二没有三,C里边有一二没有三,三是不是就是空呀,是吧,就给的是空,那么同样你可以再去sta,那么再去点sta是不是就又还原了,那么这个stack是不是就把123再挪过来呀。再挪过来就是A放到外面啊,A是外面的,我们来看一下是不是这样A,然后123B13,那是不是又没有了,把那就会变成没有,OK,那么下面讲的就是data frame的一个分层次啊,Data frame的分层次我们来看来讲啊,我们来看一下data frame的一个分层次,它也是有上面的这个上面的这个叫做Ohio Ohio好像叫Ohio,我们来查一下啊,Ohio叫Ohio Ohio Ohio叫Ohio,然后这个叫做,这是哪个州啊,这是俄亥俄,这是哪个州,不知道是吧?
05:18
我们英语碰到就查一下,就是不知道就查一下,这样的话有利于叫科罗拉多,科罗拉多color coloro,罗拉啊又写了俩,一个是汉德,然后就是ado Colorado,那们又学了俩单词啊,记住这俩啊,一个呃,罗克多O州,一个是俄亥罗州啊cream cream有了之后我们来看一下,给它指定一个所谓引的名字,改成C啊,指定一下所以的名字,那么这个K1K2就是。A的这个名字,那么这个state和color就是这两个的名字,我们来看一下free啊,K1K2 K1K2是这两数的名字啊,给大家去画一下,这样能够看的更清楚。这个是这俩竖的名字啊,这个横着的是state和color啊,State和color k1代表的是这个最前面的index k2代表的是后面这个index state代表的是第一个column color代表的是第二个column,那么我们来看,如果我们要去找frame的index,它应该是一个multi index,如果我们要找的是frame的columns,它也是multi index,也是multi index,那么就可以去查了,比如说我们可以去查A啊,frame.lock a frame.lock a的话,是不是就找的是这个呀,找的是这个,那它包含两行啊,它包含两行,我们来看一下,就是120012030,这个依然是我们的这个K2依然是我们的这个insex,上面这两个还是我们的politics,那么如果我们要找的是A和Ohio,怎么感觉总像抖音它的这个好嗨。
06:56
来,那么如果找的是A和oh,那么它依然是不是一个,那叫gra里面就是我们的这个green head里面是不是green head呀,然后这个就是K的题,然后再来下面的一个就是指的是一啊,指的是叫做frame.lock a和一来看。
07:14
frame.lock a,那么A是什么东西?我们看frame frame里边A是前面的这两行,对吧?前面的这两行我们又给它取了一个一,前面的这两行我们给他了一个一是哪一列,我看一下一,一的话就是我们的。这个吧,这个这个一啊,这个一,也就是说这里是A,我们又给他取了一个一,是不是取的是这一行的数据啊,取的应该就是012这个数据,看一下是不是012啊,012 012的这个数据取的是这个啊,也就是说如果我们要用的是叫做索引的话,如果我们要做索引的话,那么就是点log之后A逗号一取到的就是这个A这个一啊,这个A这个一,那么如果我们要取的是这个列的话啊,举列举列的话,实际上就不用这个点log了,直接就这种形式就可以。
08:11
那么它取到的就是oh还里面的green的这一列,那么就应该是A,就是这就应该是就应该是这个了吧,应该是这个啊,0369这个东西啊,0369,来看一下是不是0369,所以它取的呢,就是这一列啊这一列,那么再往下也可以去取的,是说我们内外层都取,如果我们想要取的是来想要取的是daa这个索引里边的第一个的oh,还有里面的green是不是就这个呀。就是零,它应该给我们返回的就是零,就是这一列零,一里面的oh,还有里面的green,再来往下就是这个叫做frame.log,我们可以把它展接一下,往一下它依然是零,它依然是零的话,就是取的是A,来看取的是A里边的oh,还里边的A,里边的oh,还里面的一,里边的green是不是也是零啊,啊也是零,好,那么这样子就都能够取得到这些信息啊,都能够取得到,就是说我们可以通过层次化的可以去取到里面的信息,再来就是可以去排序,以及分分级的排序,那么这种的话是叫做swap,这个swap是交换的意思啊,们来看一下,就是frame可以做交换,原来是K1和K2,我们来看上面是K1和K2,现在交换了之后,基本上K2和K1啊。
09:37
那么当然也可以按照列来去交换,按列来交换就是新增我们之前的那个a is,那么列交换看就上上面去了,State就在下面,那么这些我们都跑一下,看一下结果啊,给它形象的看一下,然后后续的话,我们就自己练的时候稍微多瞅一下就可以啊,那么这个是frame.sort index sort index,它是不是就按照我们的这个index这两个排序啊。
10:02
因这个做排序,把BA给它做,这是B,这是A,那么从大到小,二一也是从大到小,原有的frame是不是从小到大的,你看原有的是从小到大的,那么这样排序之后就从大到小了,那么当然也可以说你去指定从哪一层开始排序,如果我们只指定是LEVEL1进行排序,那么LEVEL2是不是就应该不排序啊?来看一下是不是这样啊BA level啊,它是从零开始的吧,看一下从零开始的,如果是零的话,是不是这个样子呀,如果是一的话,那么它就会变成降B2A2,然后是B1A1,这样子好,那么再往下的话就是它是从零开始的啊,我我以为从一开始,那么再往下就是我们可以thought index是按照按照这个列式thought按照列,Thought就是这些东西,然后是frame.swap level,我们都跑一下给大家试一下啊,Swap level swap level0和一的话,它是不是把我们的这个K2和K1给它变换了一个位置啊。
11:07
啊,那么如果我们再去swi来看下这个我又触发了谁的sir或者是什么小爱啊,那么我们依然是可以swap level,在swap level之后还可以去thought index按照零去给它做这个排序,那么就是应该是按照这一列去做排序了吧,我看一下变成了一二,然后ABA啊,那如果这个地方我们给它加一个叫做asc和三点。等于false啊,是不是又变成倒着的了,我写错了啊,点是吧,逗号它就又变成倒着OK,那么再往下叫做根据级别汇总统计啊,根据级别汇总统计,那么就是我们可以去根据级别去做补办啊,可以去根据级别做补办,比如说我们上面这个frame.some我们现在看一下,我们说如果我们不去做group,直接做some,相当于是把所有的内容都当做一组吧。
12:00
它会给我们返回green,它总共的是多少red red它总共是多少,然后这个green这个总啊,我说反了啊,应该是第一个是这个green,它总总和是多少,这个总和是多少,这个green总和是多少,但是如果我们指定的是LEVEL1的话。如果我们去指定的是level k等于K1的话,那么它实际上就是按照K1的这一列去给我们做,呃,做核,但是K2会保持不变,我们来看一下K1 K1的这一个会给我们做和,那么K1的这个叫AK1的A和K1的A这两个是三加零,是不是等于三呀,对吧?三加零等于三,那么上面这个BB是九加六等于。15啊,九加六等于15,它是按照这样的一列一列去给我们做的和,也就是说它会按照我们这个K1的内容给我们去做和,K2的话是不变的,二不变好,那么我们一样可以把K2给它拿过来,K2拿过来的话,它就是按K2的这一列给方做和,那么K2是包含这两行,也就是说把这两行做一个和,三加九等于12是不是这个样,然后一的这个是六加零等于六六加零啊,那么最后我们这个东西some有了some这个东西,他说跟下面这个国败是一样的啊,我们可以看一下这个读败,这个group by是说按照K2去做读败,然后再去取和,对吧,按照K2再去取和,是不是跟上面这个一样,对,这种就相当于按照K2去做读败,再去取,那么再往下的话就是,呃,这是一个求和啊,给大家去都看一下,这个求和是说按照列去求和。
13:43
R列去求和,那么A都存在,只不过列里边的这个color变成了green和red,原由我们是有两个green,一个red,那么两个green已经加到一起了吧,两个green啊,已经加到一起了,那么再往下的话,就是按照这种需求和。这个这种轴和的话是说把两个gra给它放到这,实际上我们说不把两个放在这,把它都变成一是不是也可以啊,还记得吗?把它变成121行吗?121这块变成121是不是也可以啊?它就会拿这个一去对应这个GR,拿这个二去对应这个red,拿这个一去对应GR,那么两个一依然是去做分组的,其实是一样的,一二是吧,这是二,这是一,这是二,这是一,这是八,这是四,这是八四只不过这个columns的名字变了,变成我们这个分,那么最后我们再来看这个,呃,Sum,把sum这个再说一下,这就是我们的sum,然后把这个group啊说一下,这个sum实际上就是多了一个案列去做,对吧,案列去做,那么这个的话就是按列去做group,在萨跟上面是一样的情况啊,就是跟之前的那个内容去做一个对应而已啊,跟之前内容做一个对应,下面这两个跑一下啊,我们就结束,我们就结束这一块,然后再去跑一下下面的就OK了,这个的话是swap level去把state和color做了一个。
15:00
好,交换码原来是谁在上面谁在下面,我们看一下frame吧,Frame我们看一下谁在上面,谁在下面,State在上面,Color在下面,那么交换完了之后就是color应该在上面了吧,Color应该在上面,那么这个东西就跟我们这个group是一样的,我们跑一下就结束啊,他跑一下,诶不是这个是做了一个狗肉办是吧?好,我看有的这个做了一个狗拜,然后去取了一个盒,跟上面不一样,上面没取盒,好,那么这个我们就完事啊,这个我们就完事,这个我们就结束啊,在最后的话就是使用data frame的列或者行进行索引。啊,使用data frame列或者行进行索引,我们来看一下啊,来使用data的列或者行去作为索引,什么意思?也就是说我们让,比如说可以让AC作为这条for韵母的索引,那么就把这个023456给它去掉了,啊让零一作为索引,就把零个1345给去掉,我可以看一下这个地方,选择C,选择V,那么它就让这个C和D作为索引,C和D作为索引之后来看它是不是本身就是层次性的索引了,让C和D作所引来C里边都是Y和two,那么。
16:10
D里边是0123 0123这些个数据,那么这是万里边是012 two里边是0123,还是这样的一个对应关系,那么再往后的话就是我们可以去什么reset index,这个reset index是说我们之前让C和D去做索引,对吧?我们可以让它不做索引,变成我们的数据来看reet index这不就变成这个样子了,还原回去了,我们还可以再让它点reet_inddex这个这个0123456是不是也连上数据了。我们来看也变条数据叫index,那么来我们再让它点index re index re index叫做set_index然后啊,那么这个0123456是不是也会变到这边来啊,也会变到这边来,我们来看一下啊,变叫LEVEL0了,那由此你们可以推论出下一个是怎么样的啊,下一个是怎么样的,是不是下一个应该是LEVEL1呀,啊不对,下一个会报错,下一个会报错,因为LEVEL0已经存在了,所以它不能再往里边插LEVEL0了,OK,然后这个就到这啊,这就是一个做叫做,我们可以把某一列去作为我们的这个index,然后或者是把某一列作为index给它还原回来,都可以做啊,那么这些就结束,那么最后的话,我们来看这个地方涉及到一个叫做转制的东西,这个地方涉及到一个叫做转制的东西。
17:36
转置的东西我们还没讲过对吧?啊,我们还没讲过,一会给大家稍微说一下这个什么叫做转置啊,Frame本身有它转制reet index就是不用三,我们来看一下是什么样的结果,还这个颜色,我们现在看一下frame是什么样色,Frame是原来是abcd,然后是0123456。那么它的转置啊,它的转置啊,大家看一下就变化了,怎么变的来给它家画一条线,呃,我应该这样,我把frame也得给它画起来,是frame点七啊,这个没frame没有执行啊。
18:13
变化是不可能的是吧?啊,我们来看,其实如果我们要去做转矩,就是这个样子,你可以这么想象啊,以这个地方做一个轴啊,以这里做一个轴,那么让它去向后翻转,什么叫向后翻转?就向这个方向去翻转啊,向后翻转,这个A翻转过来不是就会到这变成A啊,这个B翻转过来是不是到这变成B,这个C到这变成C,这个D变成到这变成GD来看翻转以后是不是就下面这个,你想象一下啊这个样子,给它做一个轴,然后去翻转。这么翻转,这么一句翻转之后,这个零是不是变到这来了,这个零这么翻转之后来,它是变到这来了,一变到这,二变到这,三变到这儿,四变到这儿,就是这个样子,对吧?它就是这样的一个翻转啊,这样的一个翻转,这种在我们矩阵里边,矩阵后续我们应该是要学一点矩阵的东西的啊,在我们矩阵里面,它就叫做转矩。
19:12
这叫做转矩,就是这个词。啊,叫转句,那么转句OK,转句有了之后,那么你把它转句,转句完了之后,它下面又干了什么,Rain in this,对吧,我们再给它做点read index reet,错了,Reet,因为我总用read inex,所以就有同学错了。Reet index是不是就应该把A给它挪到这里面来了,把A挪到这里面来了,我们来看一下是没错,把A就挪到这里面来,那么我们index是不是就不是就这个名字叫index,但是它已经不是我们的index了,对吧?啊,它已经不是我们的索引了,那么我们如果想要把它转成我们的索引啊,转成我们的索引,我们可以让它用d index和第零行去做索引,我们来看一下是一个什么样的情况,对,来第零行是这个叫什么,Index是abcd,然后这是第零行也是我们的我们的索引,这俩共同组成索引,然后后面是我们的数值啊,后面是,那么这里面说如果我们用z.T就能够重回原来的状态,这是不可能的,因为我们已经把他们俩都当成我们的那个索引了吧。
20:25
那么他回来只能是这个样子,如果我们上面把这个零去掉,应该是能够达到效果,如果我们把这个值去掉,应该是能够达到效果,看是不是又回回到原来的状态了啊,又回到原来OK,那么这些的话就完事啊,这些完事这个东西是一个很重要的东西,它跟我们数据分析里面的一个,或者说叫做机器学习里面的一个内容是很相近,就是很有关系的。那么这个东西叫做给大家写一下,给大家写一下这个东西叫做我想一下啊,特征工程,先跟大家说一下,什么叫做特征工程啊,特征工程是指说我们数据已经被清洗完了,清洗到我们能够统一去处理的一个状态了,但是还有一个问题就是我们后续的时候实际上是要用一堆的数据。
21:15
啊,用一堆的数据去参与到某些个计算里面,比如说有的数据是年龄九岁,有的数据是身高180,有的数据是体重170,对吧,这些都是我们的数据。那么对于这些数据,如果我们给他放到我们的机器学习里边,那么就会造成一个现象,你看这个九,它变化一下,就是如果你要去变化一下,这个九是不是就会变化的很大呀,相当于说,比如说都加一九变化的就很大,九岁到十岁变化就很大,那么十一百,180厘米和181厘米,其实变化就不那么大,更变化小的就是170和171斤,它之间的变化也会很小啊。所以我们如何能够把这种变化,如何能够把这种变化给它统一到一个级别上去,就是说我不管被给什么数,加上一个很小数,比如说加上0.1,它的变化的量都是差不多的啊,如何能够做到这种情况,就是我们特征工程里面做的事情,这是第一个,第二个特征工程里面要做什么?
22:25
第二个事情就是我这里面给大家写一下吧,把这块写一下啊,特征过程里面,第一个就是变化量的一个,呃,叫做。敏感程度啊,敏感程度,敏感程度,那么这个就是变化量的一个敏感程度,在特征工程里面是要做的,实际上就是我们如何能够让它加0.1啊,在很多的特征上面都是同样的权重,或者效果都是同样的效果,那么刚刚我们就说了体重,因为年龄很小,他是九岁加一岁,十岁,十岁和九岁差别是很大的。
23:12
但是如果是身高的话,一米八零和一米八一它差别就很小啊,所以这是一个呃,特征工程上面的一个效果,再比如说有一些东西它是叫做呃,有一些东西它是比如说时间吧,比如说我们说100分钟,或者说100分钟,它加上一个0.1,是不是感觉挺挺小的对吧?但是如果有一个值它是两两秒,你去给它加上一个0.1,是不是就比这个100 100要大的,就是要敏感的多呀,这个两秒就比这个100要敏感很多,所以怎么样能够让他们都处在同一个状态,这是我们特调保程里面要做的事情。第二个我再说一下传统工程里面要做的事情,就是我们在去做研究的时候。比如说年龄这个事情啊,我们去做年研究的时候,年龄这个事情,年龄是不是从零到一百三以上,好像吉尼斯世界纪录是120斤,我记得啊,一百三总够了,那么一百三够了之后,我们来看一下他怎么去做这个特征工程啊,就是就是我们是这样的。
24:16
你零到130,如果你要研究它的消费啊,如果你要研究它的消费的话,实际上它并不是随着这个数字的增大,消费的能力就越高,也不是随着这个数字的增大,它的消费能力就越低,对吧?那么也就是说它的消费能力可能是随着这个数字是这样子去做变化,或者是这个样子去做变化的,那怎么办?那我们再去研究的时候,你不能说,哎,随着年龄的增高,那消费能力越高,或者随着年龄的增降低,他的消费能力越低,没有这种说法,那怎么样去,怎么样去研究呢?我们就去把它分类,分人群,什么意思,比如说我们让它零到十叫做幼啊,零到零到三吧,零到三是幼年三到12年三。
25:09
十是什么青年对吧,然后三十五十可能就是壮年是吧,然后50~60是什么老中年,中老年是吧,然后60以下是老年是吧,一十六十以下是老年,其实如果我们把它按这么划分,它就有可能会有这样的一个,就是叫做比较好去描述,也就是说什么到什么区间,它是一个什么样子的内容,什么到什么样的区间,它是一个什么样的内容,什么样到什么样的区间叫什么样的内容,这种东西它在我们这个,呃叫做特征工程里面,就是分段啊,去分段研究它这种东西叫做分销,分销。也就是说我们将一个连续的内容给它分成一块一块的啊,再举一个例子,就是北京啊,北京你如果去研究房价的话,北京如果去研究房价的话,一定是按环来研,一定是按环来研究,那么但是如果你要去表述一个房子的位置。
26:14
一般没有说,就是一般在我们这个数据分析里边,没有用黄色的那个环来表示的,那么你要表示的是它的精度是多少,它的纬度是多少,对吧?比如说你有一个数据是它的精度是20,它的纬度是50啊,经度20,纬度是50,那么你是不是就可以通过这个20和50唯一的去确定它们俩相交的那个位置,就是我的房子的位置啊,但是问题是说你如果单纯的是用20去体研究,你能说这个精度就是这个我们这个房价啊,随着精度的升高它变高吗?不能。你能说它随着精度的降低而升高吧,也不能,那么怎么办,你就要给它做分段,分成一个一个的相,就是说这一段是什么样子,这一段是什么样子,这一段是什么样子,这个东西就叫做分香,OK吧,你把它分成段,是不是就有可能会有这种规律啊,比如说可能越靠近温带,它的这个房价就越高,越靠近赤道和越靠近南北极,它的房价就越低,有这种可能,但是南北极可能没几个房,或者说建造起来太困难,可能也。
27:24
也造价也高是吧,但是不一定,但是你这种分段就比之前那种描述要好很多啊,这是第一种分段,第二种就是我们把这个经度做分段了,我们的这个纬度是不是也要做分段。来纬度也做分段啊,纬度也做分段,那么如果我们把纬度也做分段的话,它会形成一种东西啊,就叫做这个样子,就是精度分很多个段,那么纬度也分很多个段来,是不是形成了一个网格状呀,当它形成一个网格状的时候,你去研究这一个网格内它的一个房价是不是就能够好很多,就像我们北京你给它,它是这样按环的啊,你去给它精度分段啊,这个这个东西是经度分段,因为经度是竖字的,我分段是不是就画横线呀,那么你再去把它纬度分段,就变成了一个区域,一个区域了,那么针对于这一个区域,你去研究它的一个房价的情况和其他区域的这种房价是不是就。
28:28
分离开了,也就是说你才能够研究的明白,那么这种东西叫做,就是单纯的一个角度,叫做分相,如果两个角度都分相,并且把两个角度和二为一变成了一块一块的,这个东西叫做交叉,我不知道我讲没想明白啊,你们有感觉吗?就是如果是一个连续的内容,我们给他做分段,这个东西叫做分析,如果是我们把两个内容,比如说我们有一个精度,有一个纬度给他过了一个综合,那么这个东西就做。
29:03
交叉啊交叉,那么什么分箱叫做特征的分箱,特特征的分相,那么什么叫做交叉,叫做特征的交叉啊,什么叫做交叉特征,那么再给大家说一个这个我们这个,呃,现实世界里面的一个例子啊,就是如果我们要预测的是房价,注意如果我们要预测的房价,它是不是应该有一个有一个函数呀,它就是连续型的。啊连续型,那么如果我们要预测的是它是猫还是狗,它是不是就不是连续型的,是A或者B啊,就是A或者是B,那么这种连续型的我们把它叫做叫做回归啊回归或者叫做预测,那么这个不连续的啊,分A和B的这种,那么它叫做它叫做分类啊分类那么我再给大家说一个事情啊,再说一个事情,其实回归跟分类有区别吗?你们觉得其实没区别,其实没区别,我大家说什么叫做回归,回归就是你给他测出来一堆数。
30:05
啊,那它就能回归了,它是一个连续的数,那么分类是什么?其实你可以说我给这个叫做什么呢?房价啊,房价如果我要给它分类,一分一类叫做高,就一类房价高,一类房价低,是不是你可以给它分为两类啊,那么就是从中间某一个值砍掉,当我们回归的这个。值大于了某个数的时候,它就叫法价高,小于了某个数的时候,是不是就叫法价低呀,对吧?那么同样我们在做这种猫和狗的分类的时候,你一样可以去通过一个函数去画出来你给它的一个分数,分数高于某个值的时候,它就是狗,当分数低于某个值的时候,它就是啊,这就是分类和回归,其实你觉得它是两个东西,它俩是一个东西,都是同样的东西,都是你给他一个分数,这个分数高了。高分数低了好,那么这个也是一样,分数高了就是高,就就是高房价,分数低了低房价。
31:06
再换一句话说,这种我们去给他做了一某一个位置去区分高和低,是不是就是跟我们这个分箱是同样的操作呀,就是跟我们分销是同样的,所以我们这里边分销啊很重要啊,分销很重要,那么这个东西到后续啊,在下一个阶段会有人给大家去讲,说回归是什么东西,然后这个猫狗是什么东西,如果说我上午讲的快,我下午给给你们讲一下什么叫做先行回归,稍微的透露一下下面的老师要讲什么样的内容啊,那么这个东西我们就是特征工程,实际上,那么实际上整个我们这一块啊,这个离散化和圆面化啊,这个东西是。呃,取的这个名字不同啊,那么实际上就是我们这个特征工程的一个东西,我们来哦,特征工程里还有一个少写一个,再多写一个啊,还少写一个,第四个叫做就是不止这些啊,我只是说给大家经常出现的是这些,还有一个叫做毒热编码,毒热编码啊,读热编码,什么叫做读热编码,来给大家说一个读热编码的一个东西啊。
32:13
读热编码是这个样子的,假设说我们要去区分这样吧,比如说我们有一个数据,这个数据它不是连续的,它有一个叫做小学啊,他的学历对吧,小学他的学历,还有一个叫做中学,他的学历,还有一个叫做大学,还有一个学历叫做研究生,还有一个学历叫做博士啊这是这是这是不是这几个呀。还有还有个,还有个没上过学无这几种,那么我们来看一下,对于这几种来说,对于他的一个叫做,比如说他的一个他的一个什么的影响啊,幸福感啊,幸福度,比如说我们要去分析这些个人的一个幸福度。啊,幸福度,那么要去分析这些个人的幸福度怎么办?我们怎么去分析这些人的幸福度呢?比如说我们可以把这个人。
33:07
你你如果要去做数据分析,他们必须都得变成数,能理解吧,他们都得变成数字才能够做得了数据分析,所以来无,如果你给他的是零,小学给的是一,中学给的是二,大学给的是三,研究生给的是四,我生给的是五,注意是不是你就把这个数据和数据之间的联系给它建立上了,就相当于说我们的小学就是中学的1/2,小学就是大学的1/3。是不是有数学上的这种联系啊,对吧,那么这个时候我们就需要用到读热编码,什么叫做读热编码?就是把这一。列的内容啊,这一列,这一列叫做学历,把这一列的内容给它变换成多列什么意思,变换成这一列,原来是学历里面是012345,我们给它变换一种方式,变换成什么样子,叫做叫做叫做上学啊,比如说吧,叫做上学上没上学处和放,那么就是零和一啊,上学和没上学零和一,那么再来,呃,小学上没上小学啊,或者说是小学小学小学文凭嘛,零和一。
34:17
啊,零或一,那么中学文凭嘛,呃,零或一啊,那么这这个特征和这个特征之间是不是就把他们的关系给分开了来,这里边是有关系的啊,这里边你小学就是中学的1/2,没错吧,这里小学就是中学的1/2,但是如果你把它这样子做区分的话,小学和中学有关系吗?他们俩之间。就没关系了,就没关系了,那么你就可以单独去分析说小,就是如果只上小学,他的一个幸福度是什么样,如果只上中学,他的一个幸福度是什么样,因为我们其实幸福度跟这些是没有一个线性的关系的,没有吧,那么可能其实幸福度会是什么样子的呢?我大概认为它可能是这个样子的,对吧。
35:03
那么双峰啊,双峰,那么这个峰是哪的小学,那么这个峰是哪的大?我是啊,我大致上认为是这个样子的啊,那么谁最不幸福呢?大学生为什么呢?啊,因为懂一点知识啊,懂一点知识自以为能够看清这个世界啊,但是这个世界往往给他挫折。
我来说两句