Python 人工智能数据分析库 28 正太分布、中心极限、数据整理 7 pandas结束学习猿原创

2021-12-082021-12-08 17:18:21播放375

点赞0 收藏 0

Python 人工智能数据分析库 28 正太分布、中心极限、数据整理 7 pandas结束学习猿地

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我来看一下，这个叫做tips啊，我们首先先要去IMPI啊，PI as n，然后是port panda as pd啊，那么这些就都是变换的操作，我们来先把内容引流进来啊，进来看一下的内容啊，S我写了一个examples，那么能够看得这些有S的信息啊，Tip的信息，那也就是说他如果总的价值是这些，那么他要交多少的小费，然后是不是吸烟，然后。啊，今天是什么样的天气，然后是什么时间吃个饭啊，是还是没有别的呀，Lunch啊，Lunch dinner，然就他的一个就是人数是多少啊，总共总体的信息大概就是这个样子的一个事情，那么我们来看就是我们可以去添加某一列，添加某一列，那么这一列就可以是说我们的小费和我们总订单的，就是总的这个价格的一个比例去看一下啊这种是经常会被用到的啊，就假设说我们会认为说，如果把小费和总的费叫总的账单去给它放到一起去除的话，除完了之后是说一块钱我们要交多少小费，但其实每一个肯定都是不一样的，但是他们可能会有某种呀，某种关系会比较好用，所以我们有的时候会，呃做这样的事情，我们把它执行一下，看一下。
01:37
然后是tap plus点派的括号，这加派我来看，对于我们这个来说，这个小费是哎，在这每一块钱他大概交了五分，这是五分五分啊，五分钱的每一块钱大概交了五分钱的消费，这个是一毛六，这是一毛六，这是一毛三一，一毛三九啊，一毛四一毛4G啊，那么也就是说其实它跟这个percentage还是有一定的关系的啊，看起来是有一定关系，但是没有去真实的做这个统计，谁也不知道啊，只是说看起来好像有关系，那么我们来看下一个事情，就是我们其实可以把这个哪一天和时间。
02:17
这个小费啊，拿出来，单独拿出来之后，我们可以对于这个表进行一个pivot table的一个叫做聚合，我们可以看一下它是一个什么样的效果啊，这就变成了十，我们还是用had来做吧，因为冒号十我一直觉得不是很喜欢啊，那么这样的话就是取出三列啊，取出三列也就是说我们取到的依然是一个data frame，这个TR依然是一个data frame，这个data frame里边包含a type the tap，然后我们把它作为一个paper做table，我们来看这是tap，然后index是tap，然后columns是tap tap，这是不是跟我们上午的那个东西很像呀啊，我们上午是tablevot，看看啊，他是把我们的这个时间时间时间就是day。
03:04
这是index变成了Z啊，然后是什么东西，Columns columns变成了type啊，Columns变成type，然后真正的这个小费就变成了这个tap。变成这个table，我来看一下它是怎么样去做的啊，来看一下呃，它这个地方feel value是零，那么也就是说如果有问题的话，它会填充上啊，这个零填充上啊，如果有什么样的情况，他会把零填充上，我们来看一下整体，它是一个叫做这一个是聚合列啊，这个是聚合列，也就是说这里面是不是都是我们的那个叫做。小费的信息啊，这里边就都是我们小费的那个信息啊，这里这里都是我们小费的信息，然后这一列type是我们的这个columns，然后这个是时间，那么这个就是我们的这个叫做。拍的table，那么它内部实际上应该是我们的一个平均值啊，内部应该是我们的一个平均值，我们可以去看一下，怎么去看它的平均值，我想一下啊，这个是说明的是星期五的dinner的一个小费的平均值，对吧，那么我们通过上面的这个值啊tips。
04:15
那么可不可以去找出星期五的dinner的小费的平均值怎么找，就是T2.lock星期五，那么我们要找的是星期五引号，就是叫做不对啊，那么这个应该是要找的是星期五，星期五是不是对的这个东西啊。我们应该取的是D，然后让它D等于什么等于等于我们找的是星期五，再看一遍啊，星期五的data，那么也就是说我们要找的是星期五，那么就是day等于Friday，那么就是F2，然后我们还要再找一个，就是dinner，对吧？那么就是叫做并且，并且它是不是应该等于，诶，我们找的这个day是column啊，Column的话不应该用lock啊，因为lock用的是行对吧，Lock是行，那么如果是column的话，就直接获取，那么就是TR中括号引号。
05:15
Time也就等于等于引号，时间等于的是dinner啊，时间等于我们来写一下，那么我们要找的是这样的一个，我们是不是可以通过它去做过滤啊，通过它去做过滤，那么过滤的就是这样写二，这写的好麻烦，如果是我正常写的话，我应该会写一个函数，然后用apply来做，我正常的话应该会用apply来做，但是这里边我为了给他做这个内容就直接写了，那么就是这个地方，就是获取到那个内容，然后我们把T2给它做一个过滤，过滤完了之后啊，过滤完了之后我们再去找的是小费吧，去找的实际上就是小费，叫做chis。然后点你看一下我写的这个OK不OK，等于等于等于等于Friday，然后这个是等于等于dinner，我们来一个一个给他去拿出来看一眼啊，他既然报错了，就说明就说明我这块写的哪块有问题，我们一个一个给他拿出来看一眼，这块有问题and是错了吗？
06:15
啊，这个是这样吧，是不是这样我不知道啊，看一眼也不对，那是一个刚才的那个是也不对啊，看一眼啊，Come compare type object with a scale of啊，这个我上次就画过这个错误啊，没有给他做括号，我上次就呃有过这个错误，加上括号应该就对了吧，加括号就对了，来，我们把它拿过来，这个东西哎，哪去了，在这啊，我来把括号给它加上看一个啊，又做了一个叫做error tips，然后give handle，我一个一个来吧，我一会给大家去写applied的那种情况啊，我这种情况对不对，我这种情况写着是有问题的啊，啊，是有问题的啊。啊，那么这些就都是我们的一个叫做就都是我们的Friday和dinner的内容，然后我们可以去把它找到它的一个叫做面里边的内容，然后就会是这个样子，对吧。
07:13
啊，那么直接就是找到它的一个平均数，那么它的平均数就是2.2.94啊，2.94 OK，那么这样的话，我们就找到这个平均数是不是就这个值啊，对吧？所以power the table就是去找这个平均数的一个值，也就是说我们Friday the dinner它的平均数是多少，我们Friday它的lunch平均数是多少，我们星期六的dinner是多少，星期六的lunch是多少，然后星期六。星期日的对应是多少，星期日的lunch就它是一个平均数的一个概念啊，平均数的一个概念，那么这就是我们的这个have table啊，Have table，然后它后面的话会做一些个这个原表的一个比较，我们来看一下T2的一个原表，我把这个删掉吧，这是T2的一个原表，就是我们找出的那个平均数的那个内容啊，找出平均数的内容，找出平均数的内容，它这个地方是说我们可以去做一个转换，但其实这个转换啊，我觉得呃，它转换的是这个X码，它这个的转换实际上就是把我们的这个Friday。
08:17
Reset index reset index是不是把Friday拿到里面来了？对吧，我们上节课讲的这个reet insex，把Friday给他拿到里边来了，那么就是一个零加三啊，零加三，那么这些就都是我们说Friday对应一个dinner Friday doing，一个dinner，那么最后一个呢，他还给我们说了一个就是也可以用直直接用这个分组和聚合来实现我们的这个透视表啊，透视表我们直接拿过来分组和聚合也是能够实现，透视表就是这个样子，跟我们之前的这个用table table是一个意思，一个意思用day和time来去做这个，呃，Group by group by之后我们把这个tips的信息啊，用TE给它拿过来就行了。
09:00
实际上这个如果说我们没有这个an step来看，如果我们没有这个an sta，它是不是应该是以day和time来作为K啊，以day和time来作为K，那么给我们返回是这个样子，然后再去点Sta.sta and sta on，那么这个的话是不是应该会把我们的时间的这一列呀，他会把我们的时间的这一列往上拿，拿到上面来，然后这些都拉平过来就对了，那么sta sta。就变成了这个样子啊，但是还有na，它最后又来了一个点6NA括号，把na f又成零啊006NA成零，那么就跟我们之前是一样的，好，那下面的话这些就是一个练习啊，直接把这个练习给大家看一下，Tips是这个样子的，我们可以用这个have table里边index是day和smoker啊，Day和smoker我们来下面执行一下，是不是变小了，现在呢，现在呢可以了，是吧，刚才我好像点的那个太小了。
10:03
来看the table，如果index是day和smoker的话，那就是每一天每一种smoker它的一个消费的数量是多少，每一天每一种smoker它的一个小费的数量是多少啊，跟我们刚才的那个值很相近，然后再来，那么下面的话就是我们可以用group by来实现这个数字啊，来实现这个事情by pro by一样的，那么就是以这两列，它实际上是作为一个那个。呃，这叫什么index啊，以这两列作为一个index OK，然后没了这个，下面就是一个，再给他后一个排，叫做排序啊，叫做fo index是按照我们的AX is一来做为排序，直接做完排序就完事了，它实际上就是把size s放到前面，T都放在后面，就是这样的一个一个内容，OK，然后下面的话就是这个，我觉得跟之前就没什么区别了，我们直接把它拿过来执行一下就可以了，这个是说我们取的是这两列index，要的是这两列，Column是这一列，对吧？那么也就是说每一个time对应的各种各样的day里面都会有一个叫做tips percentage和size的这个数字啊。
11:14
直接执行一下就OK了啊，就是对于每一个时间的每一天都会有一个size和一个percentage percent里边有yes no yes no啊，然后这个yes no是smoker，是说他呃，抽烟还是不抽烟，如果size抽烟的这个size就是这些，不抽烟的size就是啊，不对，这个是抽烟的对吧，抽烟的size就是2.2，不抽烟的size就是2.0，平均数就是这个样子，平均数好，那么再往下的话，就是这个国国国一样能够实现这个功能，我们执行一下国一样能够实现上面这是我们之前讲过的国这三列啊，以这三列作为我们的index，然后再去获取的是size和percentage这两列，然后再把它按sta，就是我们要的那个结果，这一块大家应该都检查是怎么生成的了吧，这一块怎么生成的，没没人说话的意思是不知道是吧，啊不知道好我大家一步一步看吧，就是把。
12:14
这个把这个先去掉啊，把这个UN sta先去掉，这个group by是我们上一次做过的知吧，Group是我们上次做过的内容，它是以前三列，它是以前三列作为我们的索引，那我们的索引是不是就是这三列啊，它是一个叫做它是一个叫做multi index的那个索引吧。呃，我中文multi index应该是组合索引啊，组合索引，那么它是一个multi index的这个索引，那么对于这个索引的话，我们可以给它在后面去加一个点as sta as sta是不是就是把它最终的这一列给它提到上面来啊，啊把它最终的这一列给它提到上面来，就是我们an sta的内容啊，我们在后面给它加一个UN stack叫做点an sta括号，那么它就是把smoker的这个内容给它放到这了，这上就是把比较长的一个表给它拉的更加平了一些，对吧？啊，拉的更加平了一些，所以它就是这样子的一个叫做维度上的一个变换，实际上这个地方我就稍微多说一下吧，呃。
13:24
它本身就能够代表着一个二维的内容，比如说时间是一个内容，哪一天是不是也是一个内容呀，Time时间它对应的数据是一个是一个维度，那么哪一天对它也是一个维度，抽不抽烟也是一个维度啊，抽不抽烟也是一个维度，然后就是还有什么size，这个size啊，就是这个size是们要取的值，这个percentage也是我们要取的值，那么实际上就是它总共是有这样三个维度的。这三个维度，它不管是放到index这个地方，还是把它拉平了放到这个地方，其实都能够表示一样的一个数据啊，都能够表示一样的数据。
14:06
我把古拜这个过程给大家去画一个图吧，诶，就是我就是我要的这个，就是这个东西，那我们把它啊清空新建一个，然后打开我们刚刚的那个图片，就是这个是这个吧，好，那我们来去写一下，我把它变成黑色啊，首先先去修改它的属性，让这边变成1500，然后把它变成黑色，我们先去看普外的数据，那么就以就以这个吧，就以这个数据为例啊，就以这个数据为例，假设说我们这个里边有的是。刚刚我们看到这个应该是tips，我看一下tips.T是点的。符号啊，它总共有1234567，一共有七列，那么我们用到的是123455列，123455列啊，我们就把这五列拿出来啊，第一列是time，我们来写一下，第一列是time，这跟我们买S的这个差不多，所以我以为你们能就是很快的就了解啊。
15:12
呃，是我是我想的不对了是吧，第二个是对，第三个是smoker是我的不对，因为我接触这个时间比较长，所以呃，对这边还可以啊，Size和percentage么？下面这个就是size，那么最后这个就是percentage怎么写的，Keep percentage也就是T_TCT啊，就是T_T。Percentage PC，我们来写一下，它如果做谷会是一个什么样的，我们首先先把它的内容写一下，内容的话，比如说time应该就是dinner还是lunch，我们来写一下，D代表是dinner l代表lunch d代表dinner d代表dinner d代表dinner l代表lunch，我估计今天已经够了啊。day day的话，它分的是Friday还是Saturday，我们直接少写几个就行，比如说我们周五去吃Friday，周五去吃Friday Saturday是周六，Saturday是周六，还有什么？Thursday是t Thursday是周四，对吧，周四周五周六吧，那就是T啊，TT那么smoker。
16:24
Smoker的意思是不是代表着说吸烟还是不吸烟，对吧？那就是WHY是吸烟，No是不吸烟，WHY是吸烟，WHY是吸烟，No是不吸烟，No是不吸烟。啊，漏水不显，那么size size是什么？Size是。啊，赛有几个人吧，赛是有几个人，就是我们几个人一起吃的饭，比如说五个人，两个人，五个人，三个人，四个人，一个人，那么这个take percentage，呃，这个我们随便写啊，看一下它度大概是多少，0.160.14 0.180.180.16啊，我们来写一下。
17:04
就是这块，比如说是0.16 0.17 0.18 0.19 0.200.21，好，那么假设说我们现在写了一条语句，这个这个东西我之前叫做A吧，叫A吗？我看一眼啊，记不住哈，Tips tips.goodbye我们比如说写了一个叫做tip点，叫做tips点。和by group里面我们要给的是一个内容，我们先不去写了，比如说我们要去group的是time啊，比如说我们要去drop by time，那么这个地方实际上就是我们要把time在这个地方，我们先换一个颜色啊，比如说我们把time写在这儿，那么它就是按照这个时间去做分组，他就是按照时间去做分组，按照时间去做分组的话来就会把这个D和这些个D分为一组，会把这个L和下面的这个L分为一组，这是不是给它分为了两组呀？
18:10
分为了两组之后也就结束了，也就是说整个这一个和这些都有了，都有了之后，他现在给我们生成的是一个Google data free啊，但是他并没有去做任何的操作，我们最后的时候还是要去看它的一个操作，如果他后面是点，如果他后面是点幂，点幂是什么意思啊，点幂就是取平均数对吧，平均数，那么它取平均数会造成什么样的结果，我给来稍微画一下啊。就会造成的结果就是来，我直接把它写一下，对于我们这里分组来说，它分了两组，一组叫做D，第二组叫做L，第一组叫做D，第二组叫做L，那么对于D来说，我们会对他们取平均数，是不是这一列是object呀？它没有平均数，这一列是YY什么yes或者no，它也是object，他也没有非均数，但是这一列有啊。
19:04
那么这一列的平均数，这一列叫做size，我写一下啊，它叫做size，这一列的size，它的平均数是多少？我算一下啊，十十五，20是不是20啊，整个这一列相加它是20，那么20除以123456，那么是不是就是20除以六呀？啊，我也不计算它是多少了，那反正就是20除以六。3.333是吧？啊，3.333，那么再来下面的这一个，下面的这一个它依然是一个叫做数字类型，那么对于这个数字类型的话，我们来看tip percentage，它是1.61.7，一点八一点九二十二十一这个等于多少？21加16等于多少？20加16等于37对吧？30就是0.37，什么乘以123456乘以六除以二也就等于三乘以3.0.37也就等于一三七二十一一。
20:07
点一二三七二十一一点一一没问题吧，37乘以三等于1.11，那么再去除以123456，再去除以六，那么就是1.11除以六啊1.11除以六，我们把六个的都算进来了是吧？脑子有脑子有问题啊，为什么要算六个的呢？我是不是应该算的是。D的这个呀，就是五加五加三加四是十七十七除以四对吧。17除以四，那么这个L的就是二加一等于三三除以二，那么这边就是0.0.16加0.18加0.19加0.20啊。0.200.400.600.70.73对吗？0.73除以四，那么这个两个加起来L就是0.17加0.21等于0.38除以，那么实上它生成最终生成的一个结果啊，除以二这个平均数算，那么其实它最终生成的结果是不就是这个样子呀？那我估计对于一个就是我们国外一个东西，你们可能不是特别萌，我们来看一下group by2个东西的时候，就是taps.group by，然后括号里边是换一个，换一个颜色，叫做time和day来，就是再把中括号重新写一下，中括号括号，中括号括号，那我来看一下这种情况，它又会生成什么？我们依然按照刚才的那个分组去给它分组，那么这回分组我要用一个新的，比如说黑色吧，我用黑色来给做分组啊，来我们说。
21:54
从time和D做分组，是不是就应该用的是这个和这个做分组呀，用的是这两行做的分组，对于这两行做分组，我们来看DF还有DF吗？没有DF了，所以DF本身它是一组，DF本身它是一组，那么LF还有LF吗？也没有，所以LF它是一组，DSDS是不是还有一个DS啊，两个DS分为一组，DT只有一个吧，来把DT也画一下，只有一个，就是LT也只有一个。
22:27
那么下面的话就是我们把这12345这五个内容全部都拿出来了，这五个内容拿出来之后，我们说我们要去给他做，我们要去给他做的那个叫做叫什么来着，Group派对吧，我们要去给他做group派，那么对于这个来说，总共会分五组，但是前面的D是不是总共就有四个呀？前面D总共有四个，我们是这样的，我们是给他一个D啊，给他一个D，那么D后面能够出现什么呢？我们来往上看，D能够出现什么？D能够出现FD能出现FD能出现T，是不是总共有三三类啊，DFDS和DT，所以在第二列的时候，在D的这一列给的是STF啊，那你们记得就是F。
23:15
那么L能出现什么？L能出现的是F和T，对不对，F和T，所以L出现的就是F和T，那么原有的是1234566行，那么在我们古派之后，由于有两行被分到了一组，所以是不是它应该是变成五行了呀？啊，变成五行了，那么一样的，我们再来看它的size，它的size是不是这个依然是五变呀？啊，我们把稍微往上挪一点点啊，那么它的size，这个size依然是按照去取平均数，那么五不变，二不变，五加三等于八八除以二，不对啊，S这个地方是五加三的这个吧，呃，我改一下，改成按照顺序的啊，这块是F，这块是S，这块是T，那么F是五，F是二，那么最终这个S是三加五等于八八除以二，那么这个F呢，应该是二对吧，这个F是2D，我看啊DS哦，DS是八除以二是吧？然后DT是四啊，是DT是四，我这没看清啊，然后LFLF它是二，没错吧。
24:32
然后是LTLT它是一，所以这个地方应该是一，那么再往这边，这边的话就是DFD应该是10.16，第二个是DSDS的话是1.81.9，那么就是1.85是吧，1.8呃，0.85 0.85。那么再往下DTDT是0.20 0.185吧，啊，我这总写错了，0.185，然后这个是LFLF是0.17，那么下面这个是LT是0.21，它是不是就会生成给我们生成这个东西啊，它就会给我们生成这个，我们把这个这个地方给它划一下啊，它实际上就会给我们生成这个样子，生成了这个样子的东西，它是不是前面的这一块，我们把它叫做index呀，Multi index叫做组合索引。
25:28
那么后面的这一块，后面这一块是不是我们的值啊，这一块就是我们的值。那么我们后来又学了一个东西叫做an stack，我们对这个东西做一个UN stack的操作，UN stack的操作实际上就是按stack的操作，实际上就是把最内层的这个索引，这个是我们最内层的索引挪到上面来啊，挪到上面来来最内层的索引挪到上面来，我们来写一下对于最内层的这个索引，它是一个什么样的情况来。
26:02
比如说我们原来有一个D。还有一个L，当我们把最内层的索引拿走之后，是不是这个DL就剩一个了？那么就是这个样子，那么它拿到哪，他拿到上面去，它都有哪几种情况，有I，有FST，有FST，那么是不是我们就把FST给它写上，就是叫做FSTSST，那么这个东西我需要写这个东西写上之后来对于每一个D和每一个F来说，它是不是有两列呀，对吧？它有两列，那么这两列是不是就应该是写在我们这个F这个地方呀，对吧？这两列就应该写到我们F这个地方，写到F这个地方就是来先写这一列就是54421啊就是五，这一列是S，四，这一列是T，是四。然后L这一列是不是没有啊，L这一列F有F是二，T有T是一，但这一个没有，没有我们给他说啊，等零，那么这是对于这一列来说的，那么对于这一列的。
27:09
依然它还有FFG，那么F就是对于这一列来说，F就是0.16，对于这一列来说，0.185 0.185。对于T的这一列是0.20，对于这一列的F是0.17，对于这一列的话就是这一列是TT的话就是0.21，那么中间是不是没有啊n na，那么我们原来这个地方是不是还有一个它的college，这一列的college物是叫做这一列的college叫啥来着？看一眼吧，Size对吧？这一列的column叫做size，那么这个size是不是就相当于写在这的这个size呀，它去包含的是这些信息对吧啊这个size，那么这一列我们之前叫做P，什么什么percentage tap percentage PI percentage，那么也就是PI_PC。
28:04
那么这一一列内容，它就代表的是这块OK吧，它实际上就是这样子的一个呃运算的呃规则，我们来看一下这边啊，我们来看一下这边这个刚刚我们看的这个东西，刚刚我们看的这个东西，刚刚我们看的这个东西啊对于我们去做group by。我们先把这些后面都都干掉啊，对于我们去做读，是以time和day和smoker来去做的读，那么这个是不是都会生成我们这边的这个索引啊，就像我们刚才的这个这边一样。啊，就像我们刚才这边一样，它会生成一个DD，下面有FF下面还有东西，我因为我们这边是三层，D下面是FF下面还有，哎，不是这。这个东西我看不到是吧。这样啊，我给大家这样写一下面就选一下D下面有FF下面有smoker啊，D下面有FF下面有smoker，对吧？每一个dinner对应着很多的day，每一个day又对应着它是吸烟还是不吸烟，跟我们这边是不是一样的，看一下是不是一样的，我们这边每一个day对应着很多的叫做这叫啥？就是每一个time对应很多的day，每一个time对应很多的day，然后它只不过更多一层，更多一层就是每一个F更去对应几个内容吧。
29:32
啊，对应吸烟还是不吸烟，吸烟还是不吸烟。然后再来这边啊，这边那么这边的话，剩下的就都是它的数据了，剩下都是它的数据之后，如果我们想要让smoker这一列啊，想要让smoker的这一列拿到上面去的话，是不是这个地方用的是点stick呀，点stick。实际上就会把这一列挪上去，挪上去的这个过程就跟我们刚刚这个地方去执行an sta，把我们的这个size和或者3TAPE原来是竖着的，给它变成横着的吧，横着了变成FST和FST变成这个样子，我们可以看一下是不是这个样子啊，我们把这个面点and sta括号，它不就把这个smoker，把这个smoker，原来的smoker。
30:20
原来的我给弄没了啊，我重新执行一遍，把它都。放开叫做点an sta符号，那么这个点sta就会把我们这一列的smoker给它挪到上面这一列来，就是这样。最后这块有一个东西我必须得给大家去说一下，就是整合的这一个地方是有一个整合，这个整合是很重要的啊，整合是很重要的，就是它有一个简单的合并，叫做慷慨，简单的合并，慷慨这个我给大家去看一眼啊，这个是很重要的，刚刚的那个东西比较难以理解，我们就只能在案例里边去做啊，等我去给大家去做案例的时候做啊，那么这个是DF，这个DF我们有一个值，我们想要把它去给我们叫做合并到一起我来看啊，如果我们去执行出三个内容，比如说我们有三个内列frame啊，或者说我们有三个CSV，分别的去被。
31:15
放到了我们这个内存里边，那么它们分别叫做XYZ，我们来看一下XYZ都是什么，XYZXYZ是这样的三个data frame，如果我们用contact给它放到一起，我们来看一下是什么样的结果，看把X和Y和Z全部都放到一起，0120134789。就它就是简单的挪到一起了嘛，这个东西跟我没讲过的一个搜后语句很相似，Union啊，叫做union，那个东西叫做union union。括号可以写all也可以不写哦，那么这个我没讲过啊，有一道题是跟这个有关的，但是我没讲过，那么这个union的话是怎么说呢？就是多个色后语句，它的一个结果集的一个合并，我给大家写一下，比如说上面你有一个select here from，叉叉叉，这是不是会产生一个结果集啊？
32:14
这个东西会产生一个结果结，那么同样到下面的这一块，它也会产生一个结果集，叫做select星from ooo啊，它也会产生一个结果集，那么union是什么意思？他是说把上面的这个结果集挪到下面的这个结果集之上就完事，是不是就跟我们这个是一样的呀？跟我们这个contact是一样的，把上面这个跟下面这个挪到一起就OK了啊，这是contact的一个作用，挪到一起就用contact，那么下面的这一个，下面的这一个有一个叫做join啊，有一个叫做join join是干嘛？我给大家去写一下啊，Join也那东西是一个叫做DF1，下面这个东西叫做DF2 DF2。啊DF2，那么这是一个DF1，这是一个DF2，它们的这个都是01230123，我们实际上可以把他们两个给join到一起啊，我们可以把它们两个join到一起来，我们来做一下join，就是叫做DPD。
33:17
点不对，叫做DF2，点join括号是叫做这个是叫什么D1啊d fe，我们来看一下结果，结果怎么又报错了，叫做columns overlap，把no什么什么，这个name就name name是一样的啊，就是我们这里边有一个name，这里面也有一个name，所以他给我们报了一个错，我们把其中一个改一下啊。就一个改一下，上面这个叫做name和group，下面这个叫做NAME2吧，我们把下面这个改成叫NAME2，就是叫做DF2，点columns，也就等于中括号引号，逗号引号。
34:03
啊，那么这样的话，我们再去执行一遍join，就是DF2.join括号，括号里边是D1，那么这样的话，他就把这两个表合并到一个表，是不是跟我们买色Q里边照应是一样的呀。啊，这玩意是一样，只不过买搜狗里面这两个名字是可以一样的，这里面这块也是不一样啊，是不一样，然后还有还有什么数据的重叠，这个不用管。这个到时候我们遇到了再去找就行。

展开

我来说两句

0 条评论

登录后参与评论

作者

学习猿地

Python 人工智能数据分析库 28 正太分布、中心极限、数据整理 7 pandas结束学习猿原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python 人工智能 数据分析库 28 正太分布、中心极限、数据整理 7 pandas结束 学习猿原创

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python 人工智能数据分析库 28 正太分布、中心极限、数据整理 7 pandas结束学习猿原创