00:00
第呃,我觉得你们自己看也可以,然后我到时候再操叨一遍也可以,但是简单的东西我们要说一下啊,首先第一个我们之前讲过说折线图是什么样的东西啊,我们还没载入库写载入库,呃,在这啊,载入库import micro lab s TT,这个我之前已经给大家去说过了,那么我们要去载入的是折线图,这个折线图其实就这个就可以叫做PLt.lo。就可以画得出一个折线,我们来看一下啊,你虽然看起来它是直线的,虽然看起来它是直线,是因为我这是02468,那么如果我把这个数据给它改一下,比如说零二。五,然后是六七啊,我们来看一下,它应该就是折线的,折线的。那么这就是一个简单的折线图,你用PLt.lo那么它就会把我们对应的坐标,比如说零对应的就是这个零的坐标,然后二。
01:01
二的这个坐标是在这个位置,它对应的是不是一呀。对吧,0122的位置,还有一个数据对应的是五,01233的位置对应的是六,然后七的位置对应的是四啊,它就是0123,就是默认它会有0123,那么直接你把这个数字放进去,它就是以这样的一个刻度来做,我们能够看到这个地方它有一个中括号啊,这个东西,这个东西我们为了不让它输出这个啊,为了不让它输出,那么我们可以用这样叫做plt点点数,那么这样的话它就不会输出这个东西了,他会直接给我们把下面这个就完事标记掉,那么这个就是。折线图,也就是说如果你要用折线图去表示一个数据,那么就可以这样去表示,那么再来,如果你要指定的是X轴的坐标和Y轴的坐标,那么可以用这种方式,我把这种方式拿过来,这么你指定X轴的坐标是零二什么什么什么什么02468,那么Y轴的坐标是15397,我们来看一下它会是一个什么样的情况来看,对于上面这个还是012啊,上面就是零。
02:12
1234,那么总共是这五个数,那么下面的这个就不一样了,但是从零开始,然后二是不是第二个还有一个数呀,第二个数是五,所以他把零的这个位置和五的这个位置的数连起来了,然后是3970 397并不是说我列表有多长,它就是呃,它就是多少数据,但是它这个地方是地下是有自己的一个叫做下标的,他们两个可以画到同一个地方,那么这个就是我们说的这个折线图,大家有这个东西是不是折线图你基本上就能够画的出来了,对吧?基本上你折线图就能够画出来了,也就是说你想要去改变底下这个绝也是可以的啊。那么折线图结束,它下面有很多的这个变换的样式,我们后面再说,先给大家去把这个简单的内容说一下就完事啊。
03:04
那么第二个就是叫做散点图,第二个就是散点图,散点图我们折线图这个叫做lot,而散点图它实际上叫做scatter,我们可以去把这个东西画一下这个散点图啊,这个三点图,来我们先来介绍一下,散点图就是一个X对应一个Y来,X是一,对应Y是二,X是三,对应Y是五负五,X是五,五对应Y是19,它就是这样的一个散点图,把这两个列表同时放到这个里边,那么它就是一个三点图。我们这写的是列表,它可以给列表可以给叫做series啊,Series它也可以给我们的那个na派加AR瑞啊,那么这三个东西都可以,那么也就是说我们把这个东西来执行一下,这就是那个三点图来,这是这是一的那个点的三点图,就是这是三的那个点,这是五的那个点,就是七的那个点,就是九的那个点,是不都是对应的这个呀,都是这样的一个对应啊,都是这样的一个上下的一个对应,我后为了不让它输出这个,我们可以给他进加一个叫做plt表色,那这就是散点图啊PLt.scatter你给他一个X的列表,可以给他一个Y的列表,它就能给你画出来啊,那么再来散点图。
04:19
就过了啊,简单的给大家去多说一遍,就是多看几个图,我们后续就直接拿这个图就行了,这个柱状图一样的柱状图是一样的啊来柱状图一个X轴一个Y轴,那么X轴对应的是12345,那么Y轴它所对应的就是36182,那么Y轴就是它的一个长度,而X轴就是它的一个啊位置啊,我们来看一下X轴是它的一个位置,然后Y轴就是它的一个长度,那么X轴它能不能是我们的一个数字呀。比如说一我们给它一个叫做做,给它起个名吧,叫做衣服,那么二我们再给它起一个名叫做鞋子,三我们给它起一个名叫做裤子,衣服和裤子不是一个东西什么,那么第四个给它起一个名叫做包包,第五个还有啥帽子啊,我来看一下是不支持中文啊,不支持中文,如果要去让他支持中文的话,需要去做一些个操作啊,如果让他支持中文的话,是需要一些操作的,那么我们操作先不讲,先不让他。
05:28
先你们就先不用中文,用close,后续我们会讲到这个操作啊,Close写错了,Cloth是吗是吗?是,是这么写吗?衣服是这么写。我忘了,我感觉怎么看怎么不像啊,Hoe这个这个是像啊帽子呢,Hat hat是吗?啊,这样的话,它就可以去显示出我们的这个这什么,那么这就是我们的这个叫做柱状图啊,X轴是什么,Y轴是什么,你给它那来柱状图啊,完事,下面这个是说柱状图它可以做一些个操作,我们先不管这个难。
06:05
难度很大的操作啊来,那么这个就是饼状图啊,这个就是饼状图,饼状图的话我想一下啊,饼状图的话,我们也用一个plt点数吧,Plt点数LT点数,那么这样的话就是这个呢,就是这个丙状图啊图。然后再往下啊,这种是不是可以去显示它的一个百分比和那个啊。哪个就是什么什么样的内容对吧,那么百分比和什么样的内容是在这个地方啊,是在这个地方,就是叫做这这个是说maker是有哪些去做的,然后percentage是哪些啊,Percentage在这儿,那么maker是什么东西啊。Make是什么东西?就是labels,等于我们的这一堆东西啊,如果说我们去做的话,如果说我们去做的话,我们可以在这写啊,就是在这个P的这个地方,给它来一个逗号,叫做labels。
07:02
也就等于中括号里面随便去给他,给,比如说我们这个叫做China,这个一共有几个,四个China,还有什么Russia,然后还有什么India India没写那个名号,再来一个叫做America,叫America,我记得我在上学的时候学这个America,我在上学的时候学这个美国这个词学了好久才会。你就觉得它好难写啊,它好难写,还有一个Japan派就派多了,多了吧,中国称大家看,那么这样的话,你能够看得出它是哪一个国家,哪一个国家OK啊,这个我们就。过了啊,那么就是同样的,你可以去让他去显示百分比这个东西,就是让他去显示百分比,那么就能够更好看一点啊,比如说你可以把这个东西复制到这个后面。啊,把这个显示百分比去掉,这样的话它就能够显示出百分比,好,那么这个饼图我们就到这啊,大概这些是不是就能够画出一个饼图来了。
08:08
就差不多了,差不多就够了,那么再往下的话就是直方图啊直方图直方图就是我们有两堆数据,一个是H1,一个是H2啊,我们可以去把H1做一个直方图的一个数据,我们来看一下Lt.P括号里面就是H1,那么这样的话它就能够画出来一个直方图,我们为了把它去掉,就是叫做BLT点数,那么来看这就是平方图,直方图,直方图它默认的是给我们划分十个。啊叫做十个区啊,划分十个区域,怎么样的十个区域呢?来这是第一个区域,这是第二个区域,这是第三个区域,这是第四个区域,这是第五个区域,这是第六个区域,这第七个区域,第八个第九个图标,这是第九个,就是第十个是吧,总共是十个区域,那么十个区域它是这样的,就是你这个区域里边有多少个数字,它就是有四个吧。
09:06
那这个区域内有多少个数字,它是有三个,这有几个这有几个这有几个这有几个这有几个,这有几个这有几个这有几个,其实它就是一个分布的情况,那么看完了这个分布的情况,是不是我们就觉得这一部分的数据是最多的呀?啊这OK,那么这个东西就叫做直方图啊,这个东西就叫做直方图啊,直方图完了相线图啊,这个相线图。来就这个东西啊,两行代码我们写一下啊,如果我们加上第三行就是plt点数,来三行代码,第三行代码是什么呢?来看第一个是说你有一个数据,你有一个数据让他去做成相线图,他就给你做成相线图了啊相线图。那么相线图我们之前都是横着画的啊,我们之前都是横着画的,但是这个东西它是叫做竖着画的吧?啊,它是竖着画的,那么它竖着化,来我们来看一下它竖着化的这个内容是什么样的啊。
10:01
我们这里面最小的值是多少?负22对吗?负22是在哪里这个圆点啊,啊这个圆点,那么最大值是多少?45是不是这个圆点啊,但是我们之前在讲下线图的时候,是不是没有圆点啊,没有圆点。因为他认为这个圆点是离群值啊,因为他认为这两个圆点是离群值,所以他把这两个圆点写上了,那么来看除过这两个圆点以外的内容,我们来看一下。这个地方大概指向的就是最大值,最大值就是20几,最大值是22瓦,最小值是零下负负五对吧,那么它的这个。叫做中位数,我们来看中位数大概也就是比十小,九是九嘛,九和五哪个呢?九和五可能取了一个平均值吧,我们来看啊,去掉我们这个45,去掉我们这个22,然后我们来看前面的这些123456,这是六个数据,六个数据从小到大来四哎负五四。
11:05
五九是不是把五和九取平均值啊,五和九取平均值是七啊,那么这个值应该是七啊,这是相线图的一个内容,那么下面这个是二分位,下面这个是啊,不是,下面这是二分位,下面这是四分位对吧?啊,这个就都有了,上面这两个它认为是离心啊,他认为是离心值啊,象限图,这这个图,这个图就是这个样子的啊,这个图就是这个样子的,行了完了,那这个吧,这个是热力图啊,这是热力图,这个东西是热力图啊,什么就是跟什么有关啊,它实际上是说跟我们这个矩阵里面的数据有关,我们先不用管它啊,这个东西我不打算现在去说啊,因为我们还没有讲到那个矩阵,对吧,我还没有讲到矩阵,当然你想看的话,我们来看一眼,看一眼OK啊,看一眼就没有问题啊,那么这个A就是我们的一个叫做数据的这个。这个阵,那么数据的这个阵,数据越小,那么它就越越,什么叫做越越暗啊,数据越大越明亮,这个是可以调的,这个是可以自己去调节的,你是想让他数据越小越亮越暗,还是数据越大越暗,你想让它是以什么样的色调为基准啊去做事情都可以。
12:14
那你看下面这些,还有这些东西以灰白去配色还是怎么样,然后是lower还是怎么样,好,那么大概的话,大概齐啊,我们这些个表就都有了啊,这些个表就都有了,那么这些个表都这些个图,大概我们都看了一遍之后啊,我给大家说一下我们后续要做的事情,我们后续要做的事情就是啊,这个是我们当前的这个页面。我们当前的页面,我把我把我这个打开吧。看这啊,就是我们当前的页面,我这里面有一个数据分析报告,然后在我的这个叫做足球分析报告里边,我这里面是不是有很多图啊。温州图,我记得我第一节课的时候给大家看过这个东西,看过这个东西,这是不是我就是我之前画的呀,来看这个,就是那个叫做直方图啊,这就是那个直方图,然后前面的这个是图表啊,这个是这个进球与球员号码,然后来看这个。
13:12
这个我们想要去做的时候啊,有一个有一个小小的问题啊,有一个小小的问题,看下面这个吧,有一个小小的问题,就是我们这个进球数是不是在波动的呀。对吧,其实我们应该把这个进球数给它做一个平缓的,再来看它们之间有什么样的关系,可能会更好看一些,如果想要让这些值变得平缓怎么办?我们直接把我的那个程序给大家拿出来啊。呃,程序应该就是这个没了,就这一个没有啊,没有没有就算了,没有我们直接去,我们直接去找出来吧,我直接把它那个数据给它放进来就行,它数据的位置是在这个地方,叫做match iner,我没记错的话,应该是match iner啊match iner,我们把这个match in拿过来,这个MATCH1份的话,我需要新建一个PYTHON3。
14:02
那么第一个就是我们要去引入我们的pandas import pandas,然后as pd啊来先说明一些个事情啊,先说明一些个事情,我们把这个再import一个import malo map.pylo.ylo然后as。TT,好,先来说明一些个事情,我们把它变成八格到的格式啊,说明一些个事情,就是我们这一篇,就是我们现在要干嘛,我们想要研究一下叫做呃球员的,是球员好呢还是球队好,随便一个啊,我们就球队吧先,球队的场均进球数啊,球队的场均进球数与与什么呢?相关关系啊,我们就想研究一下我们这个足球的场均进球数与其他的因素的一个相关关系,来我们把它拿过来,那么我们想要去研究这样的相关关系的话,我们是不是首先得有这样的数据啊,那么这个时候就涉及到我们panda达斯要去获取数据,怎么样去获取啊,那么所以第一步啊,来写一下第一步,依然我们用这个玛格档,第一步叫做。
15:23
获取数据的法方法是,那么我们这里面是CSV,所以我们用的是PD加V的下划线CSV啊。我们就用PD.ccsv,哎,我们来写一下啊,叫做data frame,也就等于PD点的下划线CSV括号,括号里面就是我们要去找的那个数据,我们刚刚说我们的这个数据是在是在这个位置啊,是在这个位置,但是好像是如果在这个位置有中文是不是不行啊,如果有中文不行的话,我们把它考出来卖11分。
16:05
啊,MATCH1份拷到我们的这个目录下,我们的目录下是在代码的目录了,对吧,我们把它拷在这这位,那么match一分就在这了。这个match是iner来,那么这个地方就是引号match是下划线iner点,哎,这不是CSV,这是L还XLSX叫做LSXXLSXXLXX怎么就是起这么个名呢?AXLSXL啊,对,那么就不应该是瑞的CSV了,应该是瑞的Excel,那么read的Excel的那个东西叫做read的。下划线X read的什么Excel啊Excel哎,那么这个read Excel就有了,我们来看data frame能不能够获取到它的这个数据啊,那么这个里边可能我们得去加什么head这个东西,但是我们不知道,我们先去把读进来看一眼,数据量还挺大的,大数据量来我们来看一下,叫做data for frame.head我们先来看一下它的数据长什么样子,因为我全看的话肯定看不了啊,就看一下它的数据长什么样,是不是不对呀,因为其实我们并不想让这个东西当做我们的头。
17:23
啊,这个东西并不是我的头,那么这个东西是什么?这个东西是叫做呃第一行数据,所以我们要给它加一个head对吧,我们要给他加一个headers,那么这个headers怎么加我忘了,是不是就得去看我们的这个这个呃,就得看我们的这个课件呀,对吧?或者是我们去找我们的那个官网都可以,那么如果我们我去看我的课件的话,课件这课件怎么能怎么能啊,在这我们去找到我们的panda斯。找课件panda里边的那个数据存取这一章,它里面是有我们的这个read Excel的,所以我们来看一下Excel,那么我们将来做的时候就这么做啊,如果你不会的话就找这呗,啊,那么找这的话就是获取的这一块,获取这一块来首先第一个我们来看,如果我们要去自己去定义hier,自己去定义hier是在哪里,那么是不是hier,我们应该给它写成那呀,对吧,它这个所引列的默认的hier是取哪一行,所以我们把header写成了估计就可以来看,呃,在哪,在这header等于啊。
18:29
又是一个很慢的过程,我们先来看一眼,这边都有啥,这边有hier,有column ind啊,Index column index column,然后n Rose,然后这这一堆东西。哎,完事了,我们来看一下是不是就可以了,这样就已经完事了,完事了之后,但是上面的这个数据并不是我们就是看不出来书上面的数据是什么意思,我们可以把data frame的点po给它做一个变换,那么就可以变换成我们想要的这个内容。那么辩文想要的内容,第一个home什么意思,主队还是客队对吧?所以我们大家写一个叫做home,叫做home下划线额背吧,第一个叫这个名字还是叫主客队,还是用中中文的,用中文三课三对两,不就这地吧,主客队。
19:18
下一个下一个是摩纳哥,这是什么意思啊,主队名称对吗?啊,组队名称啊,或者叫做。不对,这个叫做球队名称对吧,那么就叫做球队名称。来第三个,第三个是什么?第三个是时间对吧,第三个是时间,第四个第四个是指说球员号码,你们知不知道球员号码,那么第四第五个球员名字对吧,叫做球员名称,第六个它是位置是吧?那么就是position上就是位置,位置。那么再下一个这个肯定不是进球数啊,这个肯定不是进球数,不知道了是吧?不知道的,我们看一下我之前的这个看一下这个稍等一下啊,这个打开打开我们看一下我这个东西,就是你爬取数据的时候肯定要知道啊,但是我我已经忘记了。
20:12
来看,那么这个地方就是叫做这个叫做偷偷开口,那么这个应该是铲球吧,铲球啊,这是铲球,来写一下,那么这个应该就是叫做铲球。数量就是这一场它的一个产球数量是多少,那么再下一个就是叫做。我刚才看到了,再下一个叫做inter interception应该是抢断数量,你们对足球这么不了解吗?再下一个,下一个这个叫做whoses,它是犯规数量,来再猜下一个,下一个叫做go assist,助攻数量黄牌,我的妈呀啊,助攻数量下一个黄牌,它起码得有黄,它不得有yellow吗?你得看yellow对不对啊,来叫做total。
21:02
At t射门数是吧,射门数再下一个,再下一个的话,应该就是这个叫做红牌数对吧?Red card,那么下一个就是黄牌,那么再下一个进球数吧,Rose进球数啊。构,我们来写一下,叫做进球数,没有写这个引号啊,要写引号诶进球数好,那么这些我们就都写完了,来,我们来给大家设置一下,他说叫做doesn't allow columns To Be created where anew variable name,然后看这个,他说我们不能够去把它这个给一个新的名字吧。那么也就是说我们靠这个这么去给是不是不对呀,还是我的数量不对,我看一眼啊,一二三四五六七八九十十一十二十三十四,这是14个,我们来看一下这frame点点。
22:00
COLUMN64,然后找一下它的l Le,我为什么还要数呢?我有计算机这个东西,数数干嘛是四个,那就是说没问题啊,那么这个地方就是不能这么写,不能这么写的话,我们换一种写法,不能这么写我们就换一种写法,把它写在这叫做names,也就等于中括号,诶,我有中括号啊,Names也等于这个值,我们再重新导入,就是这种不能写,他给我们报这个warning,我们就不看它就可以了,我们就不用这种方法写,那么这样的话来看,叫做data frame。然后点I的括号,那么这样的话就有了,那么这样的话有了之后,我们就已经把我们想要的这个数据都放到这个里面了,都放到这里面了,首先第一个我们要知道的是说我们想要找的是叫做场均进球数,那是不是球队的场均进球数啊,球队的场均进球数,那么如果我们要找的是球队的场均进球数,请问我们怎么去找球队的场均进球数?
23:05
好,来下一个问题就是我们要找球队的场均进球数,我们来改一下马克,叫做找出球队的场均进球数,怎么讲问题抛出来了,那么这是我们的一个data frame,我们要找这个球队的场均进球数啊,得用分组是吗?哎,首先第一个你们说得用分组,那么我们分用什么做分组,用球队来做分组是吗?那么用球队来做分组,然后呢,还有时间,对不对啊,我们应该用球队和时间一起来做分组,就是这个球队同一时间是一场比赛,没错吧,这个球队同一时间是一场比赛,那么来去给球队和这个时间来做分组,那么就是叫做the date for grade。五点左右啊快啊分组,分组完了之后,实际上就是要把组队课组客队啊不对,把球队名称和时间给它做一个分组,那么就是叫做叫做等我想一想啊,引号叫做球。
24:15
球队名称,你看你不如写英文来的好,对吧?这么写的话,我就要不停的去切换输入法啊,才能够满足得了他的这个呃需求啊,那么和时间这两个去做国破外这两个做国会外之后,我们是不是想要找的是进球数的一个总和呀。对吧,进球数的一个总和来进球数的一个总和就是点啊,不对,中括号引号什么进球数,然后找到这个进球数之后点some,我们得先找到所有的这个进球数才可以吧?啊,我们来看一下sum的结果是什么样,怎么又给我报错了go one球名,然后时间,然后进球数some应该是没问题的,看一下no,什么时间没有,时间没有啊,忘了group拜里面的中括号了吧,国拜里面如果我们要去国拜两列,应该把它放到中括号里面啊来,再来一遍啊,就是AC米兰,他在这个时间总共进了两个球啊,AC米兰在这个时间进了两个球,AC米兰在2018年这个时间进了一个球,AC米兰在这个时间进了三个球,我也不知道是哪个球员进的,反正我们通过这个费加group麦是不是就能够找到他的一个进球复啊。
25:36
对吧,找到这个进球数,找到这个进球数,我们现在还想要做的一个事情就是找到说我们想要去让AC米兰的一个平均数求出来,怎么办?我们是不是得把AC米兰的东西都求和啊。然后再去除以它的那个是求它的means子,对吧,求它的面子,哎,我们如果现在想不出来一条语句写出来,我们就让他多条语句写出来,比如说我们这里面给他一个返回值,叫做求对,求对是team,叫做score,也就等于这个值,Team score等于这个值,那么这个里面就是我们所有队伍的那个得分情况,每一场比赛的得分情况。
26:22
有了队伍每一场比赛的得分情况,我们是不是可以通过group再去做呀?对吧,再去做国办来,就是叫做球队平均得分,那么就是替莫下划线,我们直接写一下吧,The,不对。叫做team_score那么点O画哎括号,括号里面应该给的是什么,是不是应该给的是这个叫做球队名称啊,对吧,给球队名称,那么给了球队名称之后,我们要做的什么点理解了吧,对吧?取取这个球队里面的一个平均数,我们来看一下是什么样的结果,我们先看一下什么样的结果来AC米兰平均每场进1.36个球,莱比锡啊进1.8个球啊,乌迪内斯进这几个球啊,那么这样的话,我们是不是就已经找出了每个球队。
27:20
它所对应的那个叫做进球数呀,啊进球数好,那么我们把这个写下来,给它一个负,负一个值啊,叫做T末下划线average_scar就是每个队它平均的一个scar是多少?OK,现在有了这个了。那么这个东西它是一个杂乱无章,无无无无章的,我们想要给他做一个排序怎么办?Keep average score,我们想给他做一个排序。我们想给它做一个排序,那么是不是就应该是team_average sc.for values括号是不是就可以啊,来看一下是不是这个是这个升序的,所以我们其实想要让它降序,就是as c啊a Sunday,然后等于for,来这个巴黎巴黎圣日曼,这个挺牛逼啊,巴黎圣日耳曼,巴黎圣日耳曼他们俩不应该是一个球队吗?
28:29
那么这就说明是我们这个东西是有问题的,就是我们这个本身的数据是不是有问题的,本身数据有问题就可以通过一个方式去给它替换掉,叫做replace是不是对吧?我记得是学过一个东西叫做replace,我们可以在看完了这个head之后,我们发现诶这个日耳曼不对,那么就可以从头来在这个之下去给它添加一个,说我们想要把这个data frame的内容,把它的这个这个日耳曼变成这个日耳曼是不是可以啊这。
29:01
分数不一样是分数不一样,就是我觉得他有可能是说都是这个大巴黎队对吧,都是大巴黎,但是有的小编写成这个耳有另一个小边写的是这个,而我们爬出爬下来之后,这两个耳垂又不一样,我们认为它不一样,其实它是同一个对是吧,我估计是只有一个,他不可能起的名字都一样吧,啊不是我觉得网页点上也不用看啊,因为它这个音相同的话。那么英语肯定是同一个对吧?如果翻译成汉语的音相同的话,英语肯定是同一个,所以我们就把这个耳换成一个啊,就换成这个上面这个耳就行了,估计下面这个人是不稀数来我们来给做替换,那么我记得我之前讲过一个叫做replace在哪,我知道百度一下那叫做panda的replace,怎么去找来pandas.frame.replace啊,那么这个replace来啊,就是to。
30:00
然后是value to replace,就是带replace的值是什么?Value是什么,对不对?好,那么就这两个我们来写一下,就是叫做data frame.replace括号,括号里面来第一个给的是带于place的东西,就是引号,我们是不是要把这个日耳曼这个日耳曼呀?这个这个是什么啊,这个是什么?替换了吧,这个是什么?给它替换成是这个是什么,反正俩东西是什么,来我们来做一个替换啊,替换完了,替换完了之后啊,哎,替换完了之后是不是还得再复给这条frame呀,因为它有没有in in place,看一下有我们给他一个in place逗号叫做in place,也就等于数,让他就在我们这个data frame里面去给他给我们做就行了,那么我们再来去做go,再去做average,再去执行,没有给我们替换成功吗?来看没有给我们替换成功啊,Replace values given in。
31:00
To place with the value啊,全部替换是吧,巴黎巴黎圣也加上来,那么就是巴黎圣日耳曼啊,把巴黎圣加上就到巴黎是吧?来,那么再来一遍替换啊,这样的话就一个了,那么我们就可以把这个东西,实际上我们就可以把这个东西给它放到我们的那个表里面,对吧?给他放到我们那个表里边来看,就可以这样子去做。叫做说如果我们要看一下这些个球队的一个分布情况,我们实际上就可以用这样的方式来做这个东西,我给他值了吗?操完没有给他赋值对吧。那么这个thought value有没有我们这个类呢?我觉得也有,直接加上就行完事了。耗完了这个值肯定就是已经耗完了,我们给来给他去做一个事情,给大家写一下,做一个事情叫做看分布,看一下啊,叫做平均进球的一个分布。
32:01
行或啊,我们看一下这个平均进球的一个分布情况,那么对于这个平均进球我们就可以用叫做plt,我上面有没有导入这个包,导入了,那么就是DLT点出来没有。His括号,括号里面给的是叫做he_every_score那么这样的话就能够把它的一个分布情况打印出来,我们来看一下,忘了写plt点数了,写一下叫做plt点射来看零的有一堆,但是一的进球一个左右的是不是最多的呀?啊,这一段是最多的,其实我估计它也是大概符合一个正态分布的一个情况是吧,那么如果我们随机去抽,随机去抽,估计会抽到一个正态分布,然后它是一个以一点几作为平均数的一个值,那么这个东西就是它的一个分布,那么对于这个分布我们要去怎么去描述它啊,怎么去描述它,对吧,就是我们看到了这个分布了。但是我们要去描述它来,我们就把这个描述写在上面吧,新加一个,那么描述把它叫做描描述啊J。
33:09
这个分布情况,那么比如说你们老板就想知道这个分布情况,就是对,就是这个球队的平均进球的一个分布情况。你怎么去给他描述呢?那你们老板想知道这个平均分布的情况是吧,首先第一个肯定是总分总的情况对吧,第一个当然我写一,但是你们到了真正写作的时候就不要写一了,就写。什么什么什么就行了,不要写一,但是我这就说第一个,你肯定要说总,那么就是总体的分布情况大致符合正态分布的样式是吧,它整体你就可以认为它是符合一个正态分布的样式啊,只不过它可能不太。不太不太,那么像而已,但是也很像啊,我觉得很像。
34:05
就是数据分析师,就是你觉得很像就可以,你觉得说我觉得就像正态分布,他就像正态分布啊,别人说他不像你,你也考虑考虑吧,啊,别人说别人如果说不像,你也考虑考虑,因为是这样的,我觉得像啊,我就觉得像啊,有的时候这个数据分析师也是很有态度的,是吧,那么总体的情况,它是一个叫做大致符合静态分布的样式。那么这个大致符合正态分数的样式,你要再进一步的去描述,就是从零到五,零点这是几,你们怎么知道是0.5,我看起来不像,哎,那么这个大概是多少我也不知道啊,这个大概是多少我也不知道,那么就是比如说我们能够看得出就是这个东西,你们后续是能够看得出来的啊,就第二个就是你要去分段的去描述啊,分段的去描述。就是进球在零,就是这是一小段,我们总共是十个,我们来分一下啊,这是一二三四五六七八九十对吧,那么也就是说进球在零到五,呃,就零到0.55可以吧。
35:17
零到0.55之间大概有十十几个对吧,就是十几个十二三个,我就算13个,13乘以二等于多少26,那么也就是说在啊叫做分布在零。点零啊它的,因为你总共给它分了十个地方嘛,但是这个地方很平稳,所以就是说分布在0.0~0.555之间的球,对啊,大是叫做,当然我这些大是有啊,你其实是可以通过上面这些去算出来的吧,你可以通过上面去算出来,那么就是大致有,比如说23个队啊,24个队,24啊队伍,那你分布在0.05之间,这之间有大概有24个队伍。
36:03
或者你也可以不写的这么细,你也可以直接写从零到。这这地方是多少0.8啊,比如说就是从零到0.8之间啊,是第一个梯队的球队,那么这个球队大致有多少个队伍啊,那么就是比如说从零到0.8是第一个梯,对的对,我那么这。之间的球队数量啊。我们把这个写改一下,这之间的球队数量大致有,大致有多少呢?这是11个,这是24个,30 35 35个,35个,大致有35个,那么下一步就是。叫做在0.8到十点一点,没有1.5,也没有1.5 1.15也就不错了啊,当然这是我看到后续可以算一下,因为从这到这是一个数除以十对吧,你可以算,我们可以算一下在这就是从这儿到这,这是多大,这是多少,这是2.5 2.72.7对吧,那就是2.7除以十,那么就是每一个是0.27啊,每一个就是每一个跨度是0.27,每一个跨度是0.27,那么我们在描述的时候,就是可以说在就是比如说我们说是0.880.8。
37:35
到0.8到到这是多少零点,我刚才说加0.27是1.1啊,到1.1之间,那么这个我们说啊,进球数啊,平均进球数,平均进进球数啊,在0.8~0.1之间的球对数量达到了峰值是吧,在这他达到了一个峰值,那么也就是说球队的数量是最多的,那么这之间的数量大概有这是40几啊45吧,我们就算它有45 45个,那么当然你还可以继续去,继续去说,就是如果你不嫌麻烦,你就可以把这些都描述一遍。
38:22
那后续慢慢的下降,然后下降它是多少,它是多少,它是多少你都可以描述出来,那么这样的话来,那么就是第三步再做一个总结啊,再做一个总结,那么总结什么呢?就是叫做叫做什么?这个你可以去做一个计算啊,就是这一部分,这一部分它包含了多少个球队啊,这一部分包含多少个球队,那么做一个计算就是说啊,在。比如说这个是0.7 0.7啊,我们这是多少1.9 1.9啊之叫做之间的球队啊,叫占到了总体的80%啊,当然我就是瞎写的啊,80%,然后最后再你也可以提一下哪个球队是最牛逼的,我们上面是不是已经看到了。
39:17
那个叫做巴黎日耳曼,当然你你如果真的要去说哪个球队是最牛逼的,你可以这样啊,在下面你再去输出一下这个值,比如说team average杠点二派括号,你可输出一下,说第一的啊,最牛逼的这个球队叫做巴黎日耳曼,第二个球队叫做曼城,第三的球队叫做拜仁慕尼黑,第四个球队叫做巴塞罗那。啊,这是我们这样的一个情况,那么我们再来说,刚刚我们是这么写的啊,我们再来一遍,刚刚我们是把这个data frame加了一个进球数,加了一个进球数,如果我们不加进球数,我们加的是叫做叫做助攻数,可不可以,助攻数是不是也可以啊,助攻数我们来往上看啊。
40:01
助攻数,助攻数量啊,助攻数量就瞎写,写那么多字干什么,助攻数量就是球队不是也有包含球员,球员的总的进球数量就是助攻数量嘛,对吧,那我们可以把这个助攻数量找出来,来,我们来找出来。那么这个助攻数量有了之后,我们是不是想要他跟前面这个average score做对应啊,啊,我们想要你跟它去做对应,如果我们要去跟它做对应,是不是我们的index这个值,这个teams到的这个index,我们还没有找它的平均值是吧。我先找平均值啊,平均值是不是就这个跟这个是一样的啊,啊不对,Team score我给覆盖了,我靠,我们改一下,这个叫做team助攻叫做assist sister啊,那么下面这个就是做team_ist下划线,下划线幂啊,平均也就等于,那么找它的平均值等于什么?等于就是这个东西,哎,写错了,叫做上面的这个东西,复制下来点个肉括号,如。
41:12
那么依然是我们刚才的这个值,就是这个球队名称吧,依然按照球队名称去取平均值。这里其实你就能够发现一个问题,我们是不是在重复的现代法?我们既然在重复的写代法,就说明它有更简单的写法啊,我们既然在重复的写代法,那就说明它有更简单写法,我们来看一下这个东西。这个东西应该就有了,一会儿我就告诉大家,他这个呃,用简单写法怎么样子啊,来看这些就是他的场均的助攻数。那么这些场均场均的助攻数,我们其实也是可以给他去做一个salt,我们来看一下,如果我们去给他做一个叫做salt values的话也可以啊,我们也可以来试一下,OK,我们给它做一个sort values,那么sort values来。然后下面就是team下划线,呃,Sister me,曼城是最高的,你发现没有?
42:03
那么如果我们要去画图,把这两个值去做对比的话,是不是这个index和上面的这个index就不一样,和我们上面那个index就不一样,我们来把它加点had,这个是这样的,那么上面这个我们重新跑一下啊,刚才我已经给它冲掉了,那么这个的index跟我们下面这个就不一样,来看一下第二派的括号,他们俩的index就不一样,这是巴黎日耳曼,这个是曼城,那怎么办怎么办?就我们今天学过一个东西,叫做T_sist assant高me.index。还记得吗?Rain index re index,然后我要把给的是是不是这个index呀,就是啊,给的是这个,呃,Averagek的这个inex词,那么就是叫做甲inex,哎,我们来看一下是不是下面也变成了巴黎日耳曼曼城慕尼黑这了。
43:02
但是数值是不一样的,那么我们就可以把它去当做我们的值,给我们生成一个叫做折线图,来看一下它们两个之间是否有线性之间的关系,我们这个地方给它附一个值啊,任意X有没有in place in place等于。速没有没有,那没办法,我们把这个值再复回来啊,CTRLCCTRLV也等于这个值啊好,那么我们来做一个折线图,叫做plt点折线图是什么来着?Float吧啊PLt.float括号,括号里面给给一个值叫做这个team assist scar me,这个是复工对吧。C助攻助攻数来再下一个,我们再去lo一个叫做稍等一下啊,上面这个叫做这两个,我们去lo这两个,然后TLT点数来看一下它是会是什么样的结果,对吧?但是问题在于说我们不知道哪一个是进球数,哪一个是助攻数,对吧?但是其实我们是知道的,因为这个黄线是不是一直向下呀,它就是进球数,那么这个折线它就是助攻数,那么我们不知道这个进球数还是助攻数,是不是我们应该给他标志出来呀。
44:19
应该给他标志出来,标志出来不知道怎么办,去我们这个里边,去我们这个里边找到我们这个,刚刚我们去这个绘图,找到这个绘图了之后,我们去看一下啊。来看一下我们要会的,这个叫做折线图,折线图下面它应该会有告诉我们,我把这个给它去掉,折线图这里应该会有告诉我们怎么样去给他写上我们上面的这个标记,我们来看一下,看看这个地方,这个地方,那么这个地方是不是没有标记的那下面诶。他也不写标记,你看没他也不写标记,但是他不写标记可以,我们不写标记不行。啊,他不写标记可以,我们不写标记不行,我们来给他写一下标记吧,那么就是怎么写标记呢?怎么写标记就应该是添加一个X,这个是这是label,这个不用管,这是X,这是Y轴,那么想要去在里边添加标记,那么就是label label是这么写吗?也就等于引号,我们来给它一个,那么这个东西,这个东西叫做助攻数,助攻数我们叫它就写助攻数法叫做平,叫做场均助攻数,那么下面这个我们也可以给他一个label逗号。
45:36
Label,然后等于引号叫做场均进球数啊数,我们来看难道不是label吗?大不知道,就百度,我我我今天百度的是不是有点特别多是吧,Malo LA,因为我是真的不知道它是怎么写,就我大概只知道一个大概,但是他具体怎么写我是不知道plt折线图哪去了,不对。
46:03
Pltlolololo在这啊,看一下我们想要去给它添加上我们的那个name,是叫name还是叫label label,我靠,这也太多了吧,这么多来点这个,这是不是有这个东西啊。来看一下它怎么实现呢?它实现的时候是给它添加了什么样的东西,上面这个叫做no mask,找一下哪有no mask这个地方啊,啊,这个地方,这个地方是no mask,我们把它复制过来不就得了吗?你想一想啊,把它复制过来,把它复制过来,然后前面这个这后面这个都不要啊,后面这一堆都不要,我们来看一下,那么它上给五个东西,我们只给两个东西就可以了,不行哎,少写个括号吧,对吧,一个是蓝线,一个是红线,那么上面的这个应该是蓝线,那么这个蓝线应该是叫做场均进球数啊场均哦,我知道了,我这个legend好像给了就就不用了,好像我这个直接给legend就不用再去。告诉他那个什么值来试一下,这个又是中文的问题吧,我如果我们把它删掉啊,如果我们把它删掉,我记得应该也是可以实现的是吧,我们把这个内部删掉,只要用legend,它就可以把这个label的内容实现出来。
47:13
好了。
我来说两句