00:00
然后接下来我们说,哎,这就是一个数框,哎,数据框的重复项的判断,然后呢,我们首先呢,哎,需要一个什么呢数据框,然后呢,我们创建一个数据框,比如F6个四。我创一个数据,然后呢,这个我就不麻烦了,直接了啊P点。要括号。NP。Random。It。然后呢,括号。负三。第二,JO。九五。然后这样,然后呢,F。然后第二道我们,哎,这样创建一个有投行的数组啊,但是有用的啊,我们看一下一。然后呢,这个的话。
01:00
啊,等于一个F2。62。然后点要。啊,中号三。然后呢,别人扣币啊,有时候是扣币啊,扣币比较好一点。对吧,呃,一个这样一个切片,一样就个切片,对吧,然后呢,这样的copy币的话,可以保护我们的数据元素数据不用用不用已经破坏掉,这是切片的切片。然后下面的话,我们看一下啊,F二六十二F尔零四啊F4变成什么样结果。啊,F204,嗯,把F204这个啊写错了,零四把零四的数据拿把那三拿过来。负的264,就是说呢,呃,把三个数据的副本。负一就是一数三呢,它是相同的。这样的一个数。实际上有没有抠币无所谓,这个呢,抠币不能用,养成一种习惯,基本上加口币养成一种习惯。
02:00
然后这样的话,我们接下来看一下,哎,它的重复判断是怎么判断的,然后呢,我们看看FR64重复判断是什么样的。复制,然后呢粘贴。然后哎,接下来的话,我们看一下大部分题点。然后里面是keep。好,然后变形。好,这时候呢,我们看到啊,第三行指数。这是什么意思呢?因作者我讲过第一次出现的不串不串重项,只有第二出现的三项,然后呢,对于数据框来说,它逐项值指的是整行。整行数据,整行数据相同,它叫项,这个很很简单的。不用再说了,不用再写字,就是说呢,我们知道数据框的数据是一行的,跟这不一样,是一个。它的元素是各一各各的,而我们数据框元数是一行一行的,知道吧,哎,两个元素是不是重复要在数据框里边,就是一行数据,一定行数据,它叫完全相同,一一对应,先相同,我们才说这两个行有重行,对吧?我们说重复数据对于数据框来讲是重复行。
03:08
我们看到。First啊,第一第一次出现的话,我们不认为出行,只有第二出现的话,他才认为出行,他有一重组,然后呢,我们看到他在第三处的话是出有认定它出行,第一出现的话不算出行,那这里边呢,也可以用什么呢?Last我不想了啊last什么什么么啊可以用last,可以用这么呃其他的判断啊,可以用last判断呢,可以用last来进行进行判断,也可以用啊force来判断它是同行怎么都行,我们呃正常的思维的话,还是用first比较多一点。也不正常算的,然后这里面的啊是他然后呢,当然这个里面的话是我刚才讲了啊,是整行的相同,就是每一列都相同啊,就是这一列。就跟这一比相同的这一列,第一列也是相同的,就是它们俩这些行数里都比较的,这两行数据比较是按列进行比较,在每列轴都相同,我们称之为相同,但是的话我们也可以这样做,我们把它这个整个数据集的减小。
04:05
比如我们只比较一列和三列总数数据集,只要一列和三列总数数据集中的元素是相同的话,我们就认为它俩是出行。什么意思呢?我们看一下法有四。如果这里面呢,我要改一改改啊,就是这样吧,自己做一点。就是说呢,我把比的比较的范围缩小,不但是整个速度一度比较我只是用零啊一用这两个,就是说呢,呃5151这两个没有,算了这两个数658,哎这个不好找的,八一啊,这个没有。没有算了,没有算了就算了吧。呃,我们说有两个负一一啊,负一一这两个负一,这两个转相同,有没有在其他的有相同看一下啊,都一样。七比如这个七七,我们把这两个,就是把一和三,我们把这两列给拿出来。我知。
05:03
只不过只比较这两列,合并后的收音机,就把一列和三列抽出来重新收机。啊,如果这个新数据集中有重行的话,我就认为整个是整个的有重物行啊就是等于说是比较子集,比较这个数据况子集,我们可以看到我们是把一三拿过来,一三拿过来的话,我们可以看到啊,一三拿过来一和三。啊,我们把它拿过来。是不是这样的,我要看明白一点,我们直接把F864的一三列拿出来,不是我们看看它这个结果对不对。就等于说是我塑造范围,不是只能属于集中进行的比较。来判断是不是是不是有同行,而是在一个整个数据框的一部分,就是把模几遍抽出来组成一个小子集,在子集里面判断是不是有同行,如果这个子集里面有同行的话,就相当于整个的水集中同行一样返回。我们的处置的过程。啊,有这意思,好,我们看一下这里面的话,哎,这个时候的话,我们这样加log,然后呢,我返回啊三。
06:04
啊是反列的对吧,然后是用一个花所以对吧,哎,逗号第三可以把一三列都给它拿回来啊。这个时候的话就是指集着它,那它同行有几个呢?我们可以看看负一一,负一一啊,7171啊,第一次出现了,不算同行。然后第二出现算行,这是一个数值,然后第一出现不算同行,第二出现算同行,这有两个数字,一个就在最后一个出出在。我的。删除。一模一样,记得吧,哎,这又啥意思呢?我们不是比较整个数据集,我们是比较呃,数据集的一部分,把一部分子集抽象出来来进行比较,然后相当于整个数据集的比较。这样也可以,这个呢,呃,是有时候有用场景的,有时候呢,其他数据不重要,然后呢,我们就比较核心元素做,要核心元素重复的话,我们就要把它删掉,这个时候的话就用这种方法,哎,就是把核心元素所在的列,把核心元素元素所在列抽出来,就一个子集,在子集判断它的一个同性。
07:05
然后呢,返回,呃,就纸集里面都要相同,是重复行,那么在整个的一个行里面也算同行,在整个整个数据集里面也算同行,就是把综合元素抽出来,综合元素都要相同,那么就认为其他虽然金额不相同,我们就认为它也中行,你可以删除,就这样子好。就是这个意思。好,我们这个时候也是讲那么多啊,First呀,Last的话呃都有,然后呢,呃就什呢呃我们就不再说了啊下面的话我们判断完了,哎你判断完了,判断完咋用啊,哎你判断完是没什么用的,你不但判断完,你还要着手去删除掉。然后呢,删除用谁呢,有做WP。我们删除行,然后呢,首先呢,我们先从简单的开始,这上面那个。
08:02
就是说呢,我们把F64。就是稍微改一下啊,这个地方是下划线啊,不是加号下划线写的不事说这个东西。等于说是我们说。就是I8U4我们数据框,U4这个数据框它的桌普。下划线。Starling kids。一个S,然后呢,它的我们什么都不加,我什不管,我们知道keep默认first啊,Keep参数的keep keep参数它的默认值是first,就是等于说是第一次现的算后来算,然后我们发现它结果是这样子的,012336又分掉了。我们也看到了三就重复的。啊,这是我们这样的,然后呢,还有那个什么呢,还有。啊是一样的,我们说的一个SS加62也可以啊,哎,S62。
09:01
也是一样的,哎,也是book啊,Keep first啊,这里面呢,也可以用什么呢,也可用last,但是我们不用了啊,不用那么麻烦了啊,不用不用不不用麻烦,就是用行了,我第一出现的不算或都算都重下把后面去干掉就行了,那这样的话,我们常用的为什么要拉锁拉什么挺别扭的,听不听黑子啊对吧,最后的看成是呃,非纵向,前面出现的都是很纵向,我的感觉非常的别扭,非常的不舒服。啊,当然也对,一般情况也不对,一般情况下不会出错啊,这个倒无所谓,然后接下来的话我们看一下,呃,讲到这里的话,我们看看好,然后这个是做。然后下面的话啊,就是然后呢,也是一样的,我们从来用价它也可以完美的删除掉重复0123没有了,次五六呃五也没有了,都是重复90都常快捷啊,非常快捷,还非常高效,还非常方便啊,就是用了我们的做广大的,它也是可以完美的实现我们删除我们的同行。
10:01
可以完美实现我啊。所以说呢,我们就是,呃。就是对他来说的话,我们就是就是说呢,呃,不用去特别的去,呃,去学习他这个记住这个规律就行了啊。然后呢,Keep啊都是一样的啊,然后呢,就是说呢,跟我们的呃呃判断是都差不多好吧,呃,跟我们WK的判断一样的,这个拼图我哪个都无所谓。我们影响我们讲课啊,然后我们现在的话,我们看到啊,呃,我们说了刚才讲了啊,Keep last的话也会用的到,但是用比较少,然后我们可以看到啊,我们实验一下,比如这里呢,呃,我们还是要应该学一下的,一个拉扯的话,我们发现它是从后。向上最后就出现的不删掉,前面四篇的全删掉,刚好是给我们的first,相反的,好,这样这个写出了。你看。他,我们看一下写论文。
11:01
是是不是这样子,哎,从后向上删除的,哎,就是最后出现的,我们都删掉零负242,然后负二删掉就八干掉了八秒了吧。零。八秒了二然后八秒了,哎,然后呢,八秒了,然后下面那个零没有了,七秒了你。七有了,然后呢,后面的话还有什么呢?还有424也没有了。对不对,哎,这就是它的从后向上算底,最后一次出现的都是保留下来,前面出现的全干掉,前面,前面出现任何的原柱下就要重复的给全部干掉,就把最后一次出现的我们保留下来,很别扭,但是也对,他也没有删除也可以啊。然后呢,还有更狠。怎么讲了吧,但是不忘掉false,就是把keep关掉,那么它这个不管是第一次出现的,第二出的第二个重复把它六就是说第个重复干掉,我们看一下啊。可以的。整个keep的一个关掉它的话,它的反应结果啊,会让我们感到非常惊讶啊,这样子你看一下它的结果是十四五十一二四,你看三这么多,为啥呀,八出在两次全干掉。
12:09
明白了吧,哎,就是零和。三秒了,就剩一二了,然后呢,哎,那456咋回事呢,十二四真干掉了。哎,这是么有了。然后987870。全干掉,把数全干掉。区删完了啊,这个删除也有应用场景,我想了啊,也删除所做W的话非常高效啊,不单用于数据框,而且还用于知道吧,这两个都可以用到,你看个last first和呃,这个这个这个这个first first还有last,还有还有。来这个关闭啊,就是我们的这个,呃,啊,这三个参数都是有用场景的,其中最正常的也最经常用的就是我们的。当然这里面的话也有一个,呃,可以用一个子集来进行一个圈子集删除,刚才讲子集这个。
13:00
也可以的,呃,然后呢,我们看一下子集这个啊,就是我们这样子,还有这个例子,然后这个例子的话,我们说我们是比较子集啊,不是一个全集,而是子集好这样子。我们keep。不是。证明。To the。好吧,然后呢,我们用个子一三。这个的话跟我们大K是一样一个意思啊,我们不用解释太多了,应该都明白了啊,用解释的你该知道了,记住啥意思啊,我们只比较一三列。一三这两个点它是什么的,这个指指数一级。Keep keep,然后呢,一个first keep。来把这个是记个东西,然后呢13KEEP13的过完了,这写错,来把一三这错一三页对有然后逗号,然后keep first,然后呢有问题。
14:08
啊,S1这个不是0404有这零四啊。行F发。好了,对。我们所只求啊这个一三列,他们这两个列同向。啊,就是说我们这一三列中的把一三年的列拿出来组成的数据,这数据集的通向。就可以当做整个的除以图像来进行删除,我们可以看到它删除了几,删除三个平的同时它还删除百8。这个就是八三有八的话,一三列的话有717也可以看到同行同行,哎,它三出来就是说呢,哎,他把我们整个数据集呢,一三列抽出来,抽出来储成小的数据集,然后在小的数据集中判断看哪个重复的,然后它是量是给。大的配套使用的大K来判断它来做什么呢?实施。类思啊,他就是实施,比如说呢,哎,他把中行全删掉啊,进这条啊,一三列那种一三类中行全部干掉,有人说呢,他为啥这样做呢?我刚才讲了,他要核心元素的原则啊,就是有些元素的话。
15:12
他这个要作为核心元素出现,他把核心元素就当做整个数据,数据行的一个主要元素。啊,有时候这样做的对不啊,就是说呢,哎,他认为只要核心元素相同了,这两行就是废了,就必须干掉一个。就这样子好,这是我们讲的这个呃,WT的啊,就是呃子集,子集上重复的行,可以当做在整个的数据机上重复。啊,可以认为它在整个数据集上重复,然后呢一块干掉,同时方法限制它一个子集的小啊一个一个限制一个子集的范围,然后呢,在一个子集范围判断寻找我们的下,然后在子集量分布,我就任为它是在整个的数据分布,然后一块删掉就行了,就这个意思,然后这个呢,应用场景,我刚刚说过啊,有应用场景好。
16:02
就是我们这个课,然后呢,呃,明天的话我们再讲。谁同意?平视的途径以及空置的处理。
我来说两句