Python 人工智能数据分析库 27 正太分布、中心极限、数据整理 6 数据规整学习猿地原创

2021-12-082021-12-08 16:52:27播放362

点赞0 收藏 0

Python 人工智能数据分析库 27 正太分布、中心极限、数据整理 6 数据规整学习猿地

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那么把它划分为18~25 26~35 35~60，以及60以上这样的几个，它叫做圆面，其实就是分箱啊，其实就是分箱，我们来看一下。这个分箱啊，这个东西叫做BS，上面这个叫做ages，我们把ages分到这个箱里边，这个箱里边包含的是18 25是18~25 25~35 35~60 60~100啊60~100是分了1234，分了四个箱，我们来看一下它执行完这个cost会是什么样子啊，执行完这个cost，那么cut形际就是做分箱来看一下，那么这个case里面来第一个是第一个数字是不是18呀。因为它是前。不包含前面，也就是说前闭后开的一个形式，那么前闭后开这个形式不包含18，它就给我们返回来捺，然后18~25这个数是不是18~25啊。
01:00
这个数也是18~25，这个数也是25~35，这个数是18~25A1堆，那么最后这个我们来看32的这个是25~35吧，它实际上就是按照这种方式去给他做分箱，分箱来最后这个categories能够看得到，他是说我们分箱的一个内容就是18~25 25~35 35~60 60~100，啊，这是一个分箱，那么分箱里面有这些东西，我们可以直接都看一下，Code是有哪些个，是有哪些个标签，那么这个东西是负一，就是明它是唯一的一个，然后这是零，然后这个是二，二的话就是零一，这是1234567，第七个是21234567，第七个37 37是在这吧。啊，35~60之间，所以它是二啊，那么这个是三，它是61，是不是就是60~100之间啊，那么所以它实际上就是给他分，这样去做分析，也就是说将原有的信息给它分为这几个类型啊，分为这几个类型，负一是指说不在我们分项范围内，那么零是第零项，一是第一项，二是第二，像那么这个东西其实跟我们那个哈希函数是不是也有点像，俩做分类啊，跟哈希函数做分类也有点像啊。
02:16
那么test.categories我能够看到它的categories是什么样子，就是这些个分箱的情况，那么最后一个就是能够看得到他的一个cost，就是说每一箱里边有几个数据来看。每一箱里面，这一箱里面有四个数据，这一箱里面有三个数据，这一箱里面有三个数据，这一箱里面有一个数据啊，那么这个就是分箱，好，那么分箱有了之后，它这个是可以说，呃，叫做去指定我们哪边开哪边闭，我们来看一下，现在是前闭后开，那么如果是这种的话。啊，就会变，就会跟原来不一样了，我们来看一下，看它就会变成了前开后闭，也就是说前面这个18是包含的，但是后面这个25是不包含的吧。
03:06
来看，18是包含的，但是25是不不包含的，那么原有的这一个18的这个东西是不是负一啊，是now，但是新的这一个应该就不是负一了，Co写错了，T加Co X角。那么它第一个就是零了，因为18都包含了，那么就把它分到这一个箱里面，OK，好，那么再往下我们来看，再往下的这一个，实际上是说我们的这个，呃，叫做叫什么呢？叫做可以去给他指定一个编号，我来看，我们给他去指定编号，原来我们的编号是0123，我们如果用这种方式去给他指定的话，那就拿着这个编号来当做我们的那个分箱的名字，能够看一下来看那是不是原来是这个叫做18~25呀，现在就变成了样啊，现在变成了样，第一个还是那第二个是样，第三个是样，第四个是样，第五个是样。
04:02
这要。样是年，样是少年，样是青年，Middle是中年，Elderly是老年啊啊，那么它实际上就是把我们之前的这种啊，这种区间给它命了一个名，变成了这个样，样子这是啊，那么再往下啊，再往下，再往下的话，它实际上可以去按照这个四来去给它做切割，以前的时候我们都是给它的一个叫做bes啊，给它的一个bes bes里面的话是我们的这个。呃，范围啊，给的是一个范围，如果你只给一个数字，我们来看一下。如果你只给一个，如果只给一个数字的话，它就会有变化，就是把我们的ages，把我们的ages去分为四组，我们来看一下，看它实际上怎么去分为四组，给大家看一下啊，它分为四组的方式是，它分为四组的方式是来看这个和这个区间差多少不知道，反正你看这个区间的长度和这个俩一样是吧，来看下面这个吧，这个区间的一个长度和这个区间的一个长度一样，不差不多。
05:17
具体一不一样，我我得算数算出来，但是我觉得它应该差不多对吧，来看这个是差十几，十几对吧，十点几，这个是不是也差十点几啊，这个也是差十点几，这个也是差十点几，所以其实就是我们是按照它的一个叫做平均的切割，也就是说我们把前面的最大值和最小值拿出来，然后去切割成几份对吧。最大值和最值需要值拿出来，然后切割成几块，这种你注意它是不是那个最终的value Co还是不一样呀，也就是说切割成的抗的还是不一样，就是说第一份里面的最多，第二份里面的还行，第三份越来越少啊，越来越少，切割的数量还是不一样，如果我们想要让它切割的数量是一样的话，就应该用的是q cut。
06:12
啊，Q cut，那么这个q cut是什么？还得给大家去秀一下英语啊，要不然cut大家知道都是切割，Q cut叫做qua hotel hotel什么意思啊，不知道百度一下啊，Hotel是按照什么样的去切割来分位啊，分位数。方才分位数去切割，分位数切割是不是就按照分布来切割，按照分布来说来切割，它就是按照比如说一分位，二分位，三分位，四分位这样去切割，那么每一个分位内它的一个数据是不是一定多一样多的呀？对吧，我们来看一下，把这个拿过来，如果我们给它切割成四份，那么就是有一个最小值，有一个最大值，然后中间是四三个格，是不是就是一分为二分为三分位啊，来切一下看一下，那么切完之后看一共有12个，那么这样我们看不出来，我们直接k.k.value Co value_cons括号每个都是三个。
07:13
因为我说了，它是按照最小值一分位二分位三分位。最大值取得的切分，那么如果我们给他五个呢？我们给他五个呢，32223，它也是几乎按照平均的吧，如果给他六个呢，22222，也就说他这个就不是平均了，你看这个是21减17等于多少三点几，四点几三三点几啊，它俩相减是三点几，这个减这个呢，二点几，24减21是不是二点几啊，29减24呢四点几，所以这就是区别啊，这种不是说按照数值的一个去评评分，而是按照分布的一个评分啊，分布的一个，那么后续分布的评分要比数值的评分。用的更多一些，这样的话，你能够把它按照平均的这种分布去给它去做切割的话，那么能够更好一点啊，因为每一个计算量是差不多大的，那再往后的话，这个地方，这个地方是说按照这个呃几分位去切割啊，这个东西跟我们之前的这个是一样的，就不管它了，就是也可以把它做成列表的形式，去按照几分类去做切割，没关系，那么再往下这个叫做分位数和桶分析，那么这个东西就是相当于说我们的那个叫做什么来着，桶啊，桶的方式，这个东西给大家去看一一遍就行了，它只不过是做一个分析，我之前已经把这个分箱啊，分箱也叫分筒啊，分箱也叫分筒，我这叫分箱啊，我这是分箱，分箱也叫做分桶啊，都行都行啊，你怎么叫怎么合适叫来看，对于上面的这一个，我们给它生成了1000行两列的一个数据，对吧，一列叫做DATA1，一列叫做DATA2，那么我们可以把它做一个。
08:58
叫做分箱，那么分啊PD.cut是framework，是DATA1，它是不是相当于是说我们按照DATA1去给它做分箱啊，按照DATA1做分箱出来的叫做cos，我们来看一下前十位是什么东西来按照DATA1去给它做分箱，做完分箱之后，那么前面的这个是说我们第零个数据是在这个区间内的，就是2221.68这个区间，这个是这俩是不是在同一个区间，对第第一个和第二个是在同一个区间，都是在1.2到正的2.2之间来看，第一个是2.220是在2.222之间，2.2负的二点。
09:43
啊，负的0.295是不是在这里吗？我算一下啊，负的2.95，负的2.95，然后这个是负的1.24，诶为什么不在这个区间啊，这是负的零点负的0.295，当然是不是要比这个大呀，比这个负的1.242大，我给看错了啊，还在琢磨这怎么不在这个区间呢？它肯定是在在这个区间是吧。
10:11
啊，在这个期间，那么也就是说没有毛病啊，也就是说我们把这些给它分了，分了之后，他实际上说后面还可以用group钙去给他做。分组啊，用group外给它做分组，我们这里已经给它分成四组，就是四组内容啊，再用group是不是就把它们聚合到一起了。啊，再用果伴们聚合到一起了，我们来可以看一下啊，这个聚合到一起是一个什么样的，比如说我们可以把这一段复制下来。就是frame describe啊，这个东西我们直接describe也可以啊，Frame讲describe它是这个样子的，它总共有1000个数据，那我把这段来了，来看这段来了，这一段拿下来，由于我们只去Google后脉，它给我们返回的应该是一个迭代器啊，对于这个迭代器，我们可以去运用上面的这个东西去打印出这个迭代器的每每一什么，这个迭代器如果是apply的话，我们没有去指定它的内容，那么就是这个。
11:10
内容的每一列，它的一个什么样子啊，我们来看一下，就是说它是按列的，因为apply我们没有指定东西的话，它是按列的，对吧？啊对于DATA1里面的每一个东西，那么它都是把这一列的叫做count拿出来啊，把这一列的count拿出来，把这一列的count拿出来，把这列count法拿出来，把这列看号拿出来，就有多少个数据，最大值是多少，最小值是多少，对吧，大值是多少，最小值按列去给他做的这个看法。巧和麦密和。和me啊和me这都是按照列去做的，那么这个apply里面的值是不是就打印这个group.me group.max就是每一个每一列的一个信息啊，啊每一列信息啊，那么呃，如这个东西是我们按照这个cut来做的，按照cut是指说按照他的这个。
12:01
呃，大小去做平均分，如果说你想要按照分布去做平均分，如果按照分布去做平均分，这个count是不是应该是一样的呀？如果按照分布平均分，这个count肯定是一样的，我们来试一下啊，这这里面就是按照分布去平均分啊，但是这里面分了十份来看一下，那么这十个东西的count都是一样，十个东西的count都是一样啊，最后一个，最后一个叫做亚变量，这亚变量是什么意思啊，就是我们说的这个读热编码，我们最开始的时候说了一个独热编码，找不着在哪在这。读热编码，那么读热编码我们来看一下它是什么样的东西啊，比如说我们先给他一个DF，给他一个DF，然后把DF打印出来，然后这里面就是df get damage，然后什么什么来K，然K这个里边它是有BBACB啊，B BA cab，它是不是总共有三样东西，一种是B，一种是A，一种是C啊。也就是ABC3种，那么它就会把这个东西给它多加三点，多加成什么？多加成叫做ABC，然后是第零列出现的是A吗？不是，第零列出现的是B吗？是的，B这一列是E，第零列出现的是C吗？不是，所以是零。
13:11
第一列出现的是零，是A吗？不是，第一列出现的是B嘛，是B，所以B列这一列是一，第二列也是一呀，第二列出现的是A吗？是不是A呀，是A，所以是一，第三列出现的是C，所以C这一列是一，其他都是零啊，它是这样子去做的，那么这种就叫做读热编码，那么一般来说我们会把读热编码跟原有的这个东西去做一个组合啊，原有的东西与读热编码去做一个组合，那么直接我们后面我们在后续为渠道如何把它们组合到一起，那么最后的话就是这个东西了啊，把这个东西拿出来啊，我们来看一下。就是如果我们用这种方式会是什么样子来啊，这种方式，那么prex叫做K，那么是不是就把原来原有的这个ABC给它前面加了个K啊，就只是prex的一个作用，就是说你想让生成的这个内容到底是呃以什么作为它的column，那么下面的这一个的话就是下面的这个话就是join join的话我给大家直接说出来，这个join是干嘛？就是我们这里不是生成了一个读热编码，你如果想要让它跟之前的这个。
14:21
F去组合到一起的话，我们可以用join去把它组合到一起来看一下，就是叫做DF.join括号，括号里边就是PD点。Get下划线，当DMS达，然后括号里面是叫做DF中括号引号K啊，这样的话就会生成大米，那么这样的话DF就会join上我们生成的这个内容，那么它就会应该多了三列来看一下多三列，一个是K，一个是这塔一后面的这一个就代表了前面这个K的一个读热编码是B吗？是B是B吗？是B是A吗？是A是C吗？是C是A是A。
15:07
BB啊这样的一个方式，最后他给我们做了一个例子，那么这个例子实际上是既分箱又做读热编码啊，既分箱又做读入编码，什么意思，就是我们实际上原来是有一个时间段的，比如说青年，呃，中年老年，幼年，幼年青年中年老年是有这样的一个分段的，那么分段之后，他们如果你给的是1234，是不是还是有数学上的这种关系啊。我们是把它分段之后再做毒热编码，就把它当成了一个单独的特征，比如原有的特征是年龄，那么我们把年龄给它去掉，变成了一个单独的特征，就是他是青年吗？是和叶，是和否，他是老年嘛，是和否，那么就是用下面这种方法去给他做的这个呃，叫做。
16:01
先做分箱，再做读热编码啊，后续也会有这种情况出现，我可以把它复制过来看一下，这个就是values，这些个values我们可以去把它做一个分箱。那么分箱就是里面这个看再做读热编码，我们来看一下啊，分箱再做读热编码，它生成的就是这个值，第零个值是在零到一之间吗？这是是第一个值是在零到2.4之间吗？是第二个值是在零到二之间吗？是就是这样的一个读热编码，我看一下能不能讲完这个啊，这个是重塑和重重塑和轴向旋转，这个重塑实际上就是sta和an sta这个我们之前都讲过，那么旋转的话是转制，转制这个我们也说过，呃，剩下的就是这个。叫做长格式转为宽格式啊，长格式转为宽格式，那么这个的话我们是没讲过，看一下能不能讲啊，感觉差不多啊差不多，那么我们来下载一下这个重塑的数据啊，重复的数据，我们把重塑的数据给它复制到一个地方去啊，说show in folder，把它复制，复制到我们的那个。
17:12
文件夹下啊，我那个文件夹在哪来着，软件D盘18期数据代码啊，我应该是把它放到这里面，好把这个PI给放到这里面，那么我们来看一下要怎么去做，首先我们要去这是在example下，我们直接把它改一下就可以了啊来把它拿过来，拿过来之后CTRLC。CTRLV，那么这个获取数据我们之前学过啊，直接用read csv就可以，然后把这个去掉table.csv然后pass this，等于这个L已经有了，L已经有了之后我们可以用这个。中括号十来去看一下，那么就是前十个数据，当然这个地方它写的是中括号十啊，我们可以用这个叫做点的括号十，这个可能会更更好看一点，就是说写出来代码更优雅一点，但我能够看到这个里边有进行信息，对吧。
18:06
呃，这是时间，这个是item，这个是叫value，这个是VALUE2啊，Value和VALUE2啊，不管它，那我们可以用L点一来去看一下它内部有没有大值，以及其他的值来看它有609个数据，有609个数据，那么这609数据是不是都不知道呀。那么就不需要我们去做一些个数据的处理，如果有到的话，就得去对它做一些处理，看一下把它做成什么样子，那么我们就可以去对它做一个叫做PI的一个啊的一个改造，我们来看一下这一个是去叫做将索引做一个修改来看一下，来看他是不是帮我们去做了一个修改啊，对，所以做了一个修改，就是说对我们的这个。叫columns做了一个修改啊，对columns做了一个修改，我们来看一下它是如何去做修改了，我们给它取前面几个吧，这个太长了啊，取he值，Hat值，取一个at值，我们来看一下这个值是哪里的，叫做infl，那么为了我让你能够看的清楚，再来一遍这个L点派的括号十，来看这个in fl是不是在这啊，这个叫做real dp，它是不是在real dp的这real dp，那么这个叫做unemploee unemplo就是说。
19:38
UN是不是就这个呀，那么也就是说我们能够发现它实际上是把我们的column。是不是当做item的这一列了，比如说A的这一列是我们的column，我们再来看date的这一列，Date的这一列是不是我们的这一列啊，啊，这一列我们来来结合它的参数，Date的这一列和item的这一列和哪一列来着，这是第三个是不是value的这一列啊，也就是说它将date的这一列当做index，当做把item的这一列当做columns。
20:13
啊，当做靠六字，那么把Y6的这一列当做什么，我们来看Y6的这一列，第一个是二两二七什么什么什么啊二七什么什么，二七什么什么什么，那么来看这个就是二七什么什么什么对吧。啊二七什么什么，那么这个是3月31号，那么这个是不是把3月31号都给它合到一起了呀，来看3月31号，1959年3月31号，1959年6月，下面这个是1960年，1960年6月，1960年9月，这是不是一个叫做什么来着，递增向下递增的一个关系啊，向下递增的一个关系。就是我们把第一列的内容当做我们的这个。Date的内容，我们把第二个参数当做我们column，然后我们把然后我们把这个内容当做我们的第三个内容，什么意思啊，就是我们这里不是有一个叫做我不知道怎么去解释啊，我们这里不是有一个叫做infl吗？那么这个值它是不是对应的是这个值啊，来看in fl它对应的是这个值啊，是不是都是一九，呃，1959年3月31号，然后它有inl，它对应的是这个值吧，那么这个值是说一九。
21:36
59年3月1号，如果它里边有这个real GDP，它是不是就是二七这个值就是real gdp27这个值对吧，然后最后1959年3月31号，它有这个UN，它对应的是5.8，是不是就对应的这个5.8呀，对吧？所以。怎么去说这个事呢？那就是把这三列拿出来。
22:00
第一列当做index，第二列当做columns，然后把第一列和第二列的这个对应关系是不是对应到第三列的value上呀，对吧，它就是这样的一个关系，但是具体这个怎么去解释呢？Y62在我们这里面，我们来看啊，Y62我们这里边。是不是没有Y62啊，Y62就已经没了，Y62就没有出现在我们这个新的数据表里边，我们来看一下原有的这个l data它有多长，LN括号L它有多长，609 609，我们看一下我们这个数据它有多长，这个数据啊，这个我们做完了这个pilot之后，它的数据有多少，这个len括号是V，那么这个数据它应该会短的多，是不是609除以203等于三啊，等于三，那么等于这个三是什么意思？就是我们这里不是有数据嘛，它每三行啊，每三行，每三行组成了一个新的列吧，也就是说以它作为index，以它作为column，然后这个作为值，也就是这一行它变成什么？我给大家写一下啊，这一行它变成什么？它变成的是1959，那么。
23:20
它所对应的是这个g real GDP上面就是real GDP，这个就到这来了，Real GDP re，我们用re来表示，这个叫做in fl就到这来了，叫做in fl，那么这个这个就到这来叫做une啊，U怎么写着写着没了呢？嗯，再写一遍啊，那么这三行它就会变成一行，我们来写一下，它就会变成一行，那么这一行的话就是第一个叫做1959，我们就写个一九，然后第二行是这个，这是我们的这个行的index，那么我们说第这个item会变成列，Item变成列就会变成real GDP real第是real，第二个是in fl，第三个是叫做UN是吗？那么总共就是这三列，那么数字是不是就是二这个。
24:14
Real，这个是2710，这个是零，这个是5.8呀，它就是把这三行变成了一行啊，三行变成了一行，第一个值是我们的那个叫做index，第二个值是我们的column，第三个值是它里面的值是多少，是这样，那么就是如果说这东西没有，我们来看一下，下面可能会给它没有的情况啊，那么实际上就是会变成就把上面的情况变成下面这种形式啊，变成这种形式，那么你依然可以去看到它有多少个数据啊，应该看到它有多少数据，那么往下啊往下。那么这个实际上就是说我们宽格式旋转为长格式，我们可以看一下宽格式旋转为长格式，OK，看一下啊，旋转V，那么这是我们的一个DF，那么这个DF的话，我们来看叫做melt啊melt这个英文是什么？我怎么这么卡，就是感觉一到后面就卡了啊。
25:13
可能是因为呃，这个内存占用的太多了，我们看一下来看，那么它是不是就将我们的这个K给它变成了这个样子呀，我们是说以K来作为我们唯一的那个变量啊，以K来作用唯一的那个变量，那么它就包含有variable，是不是把这个ABC挪过来了呀，把ABC挪过来了，那比如说一个负，它对应的是有A有B有C对吧？一个负对应的有A有B有CA，一个BA也对应的是有A有B有CA。C，那么最后这个BAC，它也对应的是ABC，它就是这样的一个挪动关系啊，就是这样的一个劳动关系，也就相当于说把以前一个很长的这样的表给它变化成了我们这样的一个。
26:05
呃，竖着的标对吧。

展开

我来说两句

0 条评论

登录后参与评论

作者

学习猿地

Python 人工智能数据分析库 27 正太分布、中心极限、数据整理 6 数据规整学习猿地原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python 人工智能 数据分析库 27 正太分布、中心极限、数据整理 6 数据规整 学习猿地原创

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python 人工智能数据分析库 27 正太分布、中心极限、数据整理 6 数据规整学习猿地原创