Python数据分析 102 Series和数据框常用统计函数去重频数统计以及空值处理-6 学习猿地原创

2021-11-272021-11-27 11:33:21播放226

点赞0 收藏 0

Python数据分析 102 Series和数据框常用统计函数去重频数统计以及空值处理-6 学习猿地

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
然后接下来我们说，哎，这就是一个数框，哎，数据框的重复项的判断，然后呢，我们首先呢，哎，需要一个什么呢数据框，然后呢，我们创建一个数据框，比如F6个四。我创一个数据，然后呢，这个我就不麻烦了，直接了啊P点。要括号。NP。Random。It。然后呢，括号。负三。第二，JO。九五。然后这样，然后呢，F。然后第二道我们，哎，这样创建一个有投行的数组啊，但是有用的啊，我们看一下一。然后呢，这个的话。
01:00
啊，等于一个F2。62。然后点要。啊，中号三。然后呢，别人扣币啊，有时候是扣币啊，扣币比较好一点。对吧，呃，一个这样一个切片，一样就个切片，对吧，然后呢，这样的copy币的话，可以保护我们的数据元素数据不用用不用已经破坏掉，这是切片的切片。然后下面的话，我们看一下啊，F二六十二F尔零四啊F4变成什么样结果。啊，F204，嗯，把F204这个啊写错了，零四把零四的数据拿把那三拿过来。负的264，就是说呢，呃，把三个数据的副本。负一就是一数三呢，它是相同的。这样的一个数。实际上有没有抠币无所谓，这个呢，抠币不能用，养成一种习惯，基本上加口币养成一种习惯。
02:00
然后这样的话，我们接下来看一下，哎，它的重复判断是怎么判断的，然后呢，我们看看FR64重复判断是什么样的。复制，然后呢粘贴。然后哎，接下来的话，我们看一下大部分题点。然后里面是keep。好，然后变形。好，这时候呢，我们看到啊，第三行指数。这是什么意思呢？因作者我讲过第一次出现的不串不串重项，只有第二出现的三项，然后呢，对于数据框来说，它逐项值指的是整行。整行数据，整行数据相同，它叫项，这个很很简单的。不用再说了，不用再写字，就是说呢，我们知道数据框的数据是一行的，跟这不一样，是一个。它的元素是各一各各的，而我们数据框元数是一行一行的，知道吧，哎，两个元素是不是重复要在数据框里边，就是一行数据，一定行数据，它叫完全相同，一一对应，先相同，我们才说这两个行有重行，对吧？我们说重复数据对于数据框来讲是重复行。
03:08
我们看到。First啊，第一第一次出现的话，我们不认为出行，只有第二出现的话，他才认为出行，他有一重组，然后呢，我们看到他在第三处的话是出有认定它出行，第一出现的话不算出行，那这里边呢，也可以用什么呢？Last我不想了啊last什么什么么啊可以用last，可以用这么呃其他的判断啊，可以用last判断呢，可以用last来进行进行判断，也可以用啊force来判断它是同行怎么都行，我们呃正常的思维的话，还是用first比较多一点。也不正常算的，然后这里面的啊是他然后呢，当然这个里面的话是我刚才讲了啊，是整行的相同，就是每一列都相同啊，就是这一列。就跟这一比相同的这一列，第一列也是相同的，就是它们俩这些行数里都比较的，这两行数据比较是按列进行比较，在每列轴都相同，我们称之为相同，但是的话我们也可以这样做，我们把它这个整个数据集的减小。
04:05
比如我们只比较一列和三列总数数据集，只要一列和三列总数数据集中的元素是相同的话，我们就认为它俩是出行。什么意思呢？我们看一下法有四。如果这里面呢，我要改一改改啊，就是这样吧，自己做一点。就是说呢，我把比的比较的范围缩小，不但是整个速度一度比较我只是用零啊一用这两个，就是说呢，呃5151这两个没有，算了这两个数658，哎这个不好找的，八一啊，这个没有。没有算了，没有算了就算了吧。呃，我们说有两个负一一啊，负一一这两个负一，这两个转相同，有没有在其他的有相同看一下啊，都一样。七比如这个七七，我们把这两个，就是把一和三，我们把这两列给拿出来。我知。
05:03
只不过只比较这两列，合并后的收音机，就把一列和三列抽出来重新收机。啊，如果这个新数据集中有重行的话，我就认为整个是整个的有重物行啊就是等于说是比较子集，比较这个数据况子集，我们可以看到我们是把一三拿过来，一三拿过来的话，我们可以看到啊，一三拿过来一和三。啊，我们把它拿过来。是不是这样的，我要看明白一点，我们直接把F864的一三列拿出来，不是我们看看它这个结果对不对。就等于说是我塑造范围，不是只能属于集中进行的比较。来判断是不是是不是有同行，而是在一个整个数据框的一部分，就是把模几遍抽出来组成一个小子集，在子集里面判断是不是有同行，如果这个子集里面有同行的话，就相当于整个的水集中同行一样返回。我们的处置的过程。啊，有这意思，好，我们看一下这里面的话，哎，这个时候的话，我们这样加log，然后呢，我返回啊三。
06:04
啊是反列的对吧，然后是用一个花所以对吧，哎，逗号第三可以把一三列都给它拿回来啊。这个时候的话就是指集着它，那它同行有几个呢？我们可以看看负一一，负一一啊，7171啊，第一次出现了，不算同行。然后第二出现算行，这是一个数值，然后第一出现不算同行，第二出现算同行，这有两个数字，一个就在最后一个出出在。我的。删除。一模一样，记得吧，哎，这又啥意思呢？我们不是比较整个数据集，我们是比较呃，数据集的一部分，把一部分子集抽象出来来进行比较，然后相当于整个数据集的比较。这样也可以，这个呢，呃，是有时候有用场景的，有时候呢，其他数据不重要，然后呢，我们就比较核心元素做，要核心元素重复的话，我们就要把它删掉，这个时候的话就用这种方法，哎，就是把核心元素所在的列，把核心元素元素所在列抽出来，就一个子集，在子集判断它的一个同性。
07:05
然后呢，返回，呃，就纸集里面都要相同，是重复行，那么在整个的一个行里面也算同行，在整个整个数据集里面也算同行，就是把综合元素抽出来，综合元素都要相同，那么就认为其他虽然金额不相同，我们就认为它也中行，你可以删除，就这样子好。就是这个意思。好，我们这个时候也是讲那么多啊，First呀，Last的话呃都有，然后呢，呃就什呢呃我们就不再说了啊下面的话我们判断完了，哎你判断完了，判断完咋用啊，哎你判断完是没什么用的，你不但判断完，你还要着手去删除掉。然后呢，删除用谁呢，有做WP。我们删除行，然后呢，首先呢，我们先从简单的开始，这上面那个。
08:02
就是说呢，我们把F64。就是稍微改一下啊，这个地方是下划线啊，不是加号下划线写的不事说这个东西。等于说是我们说。就是I8U4我们数据框，U4这个数据框它的桌普。下划线。Starling kids。一个S，然后呢，它的我们什么都不加，我什不管，我们知道keep默认first啊，Keep参数的keep keep参数它的默认值是first，就是等于说是第一次现的算后来算，然后我们发现它结果是这样子的，012336又分掉了。我们也看到了三就重复的。啊，这是我们这样的，然后呢，还有那个什么呢，还有。啊是一样的，我们说的一个SS加62也可以啊，哎，S62。
09:01
也是一样的，哎，也是book啊，Keep first啊，这里面呢，也可以用什么呢，也可用last，但是我们不用了啊，不用那么麻烦了啊，不用不用不不用麻烦，就是用行了，我第一出现的不算或都算都重下把后面去干掉就行了，那这样的话，我们常用的为什么要拉锁拉什么挺别扭的，听不听黑子啊对吧，最后的看成是呃，非纵向，前面出现的都是很纵向，我的感觉非常的别扭，非常的不舒服。啊，当然也对，一般情况也不对，一般情况下不会出错啊，这个倒无所谓，然后接下来的话我们看一下，呃，讲到这里的话，我们看看好，然后这个是做。然后下面的话啊，就是然后呢，也是一样的，我们从来用价它也可以完美的删除掉重复0123没有了，次五六呃五也没有了，都是重复90都常快捷啊，非常快捷，还非常高效，还非常方便啊，就是用了我们的做广大的，它也是可以完美的实现我们删除我们的同行。
10:01
可以完美实现我啊。所以说呢，我们就是，呃。就是对他来说的话，我们就是就是说呢，呃，不用去特别的去，呃，去学习他这个记住这个规律就行了啊。然后呢，Keep啊都是一样的啊，然后呢，就是说呢，跟我们的呃呃判断是都差不多好吧，呃，跟我们WK的判断一样的，这个拼图我哪个都无所谓。我们影响我们讲课啊，然后我们现在的话，我们看到啊，呃，我们说了刚才讲了啊，Keep last的话也会用的到，但是用比较少，然后我们可以看到啊，我们实验一下，比如这里呢，呃，我们还是要应该学一下的，一个拉扯的话，我们发现它是从后。向上最后就出现的不删掉，前面四篇的全删掉，刚好是给我们的first，相反的，好，这样这个写出了。你看。他，我们看一下写论文。
11:01
是是不是这样子，哎，从后向上删除的，哎，就是最后出现的，我们都删掉零负242，然后负二删掉就八干掉了八秒了吧。零。八秒了二然后八秒了，哎，然后呢，八秒了，然后下面那个零没有了，七秒了你。七有了，然后呢，后面的话还有什么呢？还有424也没有了。对不对，哎，这就是它的从后向上算底，最后一次出现的都是保留下来，前面出现的全干掉，前面，前面出现任何的原柱下就要重复的给全部干掉，就把最后一次出现的我们保留下来，很别扭，但是也对，他也没有删除也可以啊。然后呢，还有更狠。怎么讲了吧，但是不忘掉false，就是把keep关掉，那么它这个不管是第一次出现的，第二出的第二个重复把它六就是说第个重复干掉，我们看一下啊。可以的。整个keep的一个关掉它的话，它的反应结果啊，会让我们感到非常惊讶啊，这样子你看一下它的结果是十四五十一二四，你看三这么多，为啥呀，八出在两次全干掉。
12:09
明白了吧，哎，就是零和。三秒了，就剩一二了，然后呢，哎，那456咋回事呢，十二四真干掉了。哎，这是么有了。然后987870。全干掉，把数全干掉。区删完了啊，这个删除也有应用场景，我想了啊，也删除所做W的话非常高效啊，不单用于数据框，而且还用于知道吧，这两个都可以用到，你看个last first和呃，这个这个这个这个first first还有last，还有还有。来这个关闭啊，就是我们的这个，呃，啊，这三个参数都是有用场景的，其中最正常的也最经常用的就是我们的。当然这里面的话也有一个，呃，可以用一个子集来进行一个圈子集删除，刚才讲子集这个。
13:00
也可以的，呃，然后呢，我们看一下子集这个啊，就是我们这样子，还有这个例子，然后这个例子的话，我们说我们是比较子集啊，不是一个全集，而是子集好这样子。我们keep。不是。证明。To the。好吧，然后呢，我们用个子一三。这个的话跟我们大K是一样一个意思啊，我们不用解释太多了，应该都明白了啊，用解释的你该知道了，记住啥意思啊，我们只比较一三列。一三这两个点它是什么的，这个指指数一级。Keep keep，然后呢，一个first keep。来把这个是记个东西，然后呢13KEEP13的过完了，这写错，来把一三这错一三页对有然后逗号，然后keep first，然后呢有问题。
14:08
啊，S1这个不是0404有这零四啊。行F发。好了，对。我们所只求啊这个一三列，他们这两个列同向。啊，就是说我们这一三列中的把一三年的列拿出来组成的数据，这数据集的通向。就可以当做整个的除以图像来进行删除，我们可以看到它删除了几，删除三个平的同时它还删除百8。这个就是八三有八的话，一三列的话有717也可以看到同行同行，哎，它三出来就是说呢，哎，他把我们整个数据集呢，一三列抽出来，抽出来储成小的数据集，然后在小的数据集中判断看哪个重复的，然后它是量是给。大的配套使用的大K来判断它来做什么呢？实施。类思啊，他就是实施，比如说呢，哎，他把中行全删掉啊，进这条啊，一三列那种一三类中行全部干掉，有人说呢，他为啥这样做呢？我刚才讲了，他要核心元素的原则啊，就是有些元素的话。
15:12
他这个要作为核心元素出现，他把核心元素就当做整个数据，数据行的一个主要元素。啊，有时候这样做的对不啊，就是说呢，哎，他认为只要核心元素相同了，这两行就是废了，就必须干掉一个。就这样子好，这是我们讲的这个呃，WT的啊，就是呃子集，子集上重复的行，可以当做在整个的数据机上重复。啊，可以认为它在整个数据集上重复，然后呢一块干掉，同时方法限制它一个子集的小啊一个一个限制一个子集的范围，然后呢，在一个子集范围判断寻找我们的下，然后在子集量分布，我就任为它是在整个的数据分布，然后一块删掉就行了，就这个意思，然后这个呢，应用场景，我刚刚说过啊，有应用场景好。
16:02
就是我们这个课，然后呢，呃，明天的话我们再讲。谁同意？平视的途径以及空置的处理。

展开

我来说两句

0 条评论

登录后参与评论

作者

学习猿地

Python数据分析 102 Series和数据框常用统计函数去重频数统计以及空值处理-6 学习猿地原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐