00:00
没弄成的那个CSV啊,是因为中间有中文的这个路径,把中文的路径都干掉就可以了啊,那么他就能够获取到内容,那我看他其实就能够获取到这些个,呃,这些个内容,那能够获取到这些内容之后,我们这样就能够找得到这些,比如说我们想要把所有的啊进球数有没有哪个是进球数这个后母后杠,对吧,把所有的进球数都拿出来,拿DF啊,我这个有点慢啊,DF中括号引号叫做home_home下划线杠,那么这样的话就把方都拿出来了,那这个东西本身它就是一个the,那么下面这个就是data free啊,我就写了一个DF,就是data frame的意思。好,那么下面我来再给大家去说一些个其他的内容,就是如何去做查询,查询会去做查询,我们新建一个吧,这个不用这个,因为这个感觉有点慢,然后把这个东西再新建一个啊。
01:00
的版本,所以这个东西应该有PYTHON3跟你们是一样的,尽量用跟你们一样的东西啊好,那么下一个我们起一个名字叫做呃,Panda表的获取啊来,那么我们依然看着我们这边的这个来做一下,先生成一个A啊,生成一个A,那么生成这个A,大家来看一下,这里面是一个二维的列表,然后把这个二维的列表就生成这个东西,然后生成了一个index,叫12345,生成了一个cors啊,我们来看一下这个内容,Pd not DeFine啊,这个地方没PPD,怎么DeFine家还记得吧,Import import,空格panda,然后as pd,好,那么A就有了,我们可以看一下A的内容,A就是这个样子的,那么A是这个样子的。来看第一个叫做,我们可以去看一下A的常用的属性,那么就是a.ship啊a. shea.she我们来看一下,它是五行七列啊五行七列,那么括号里边有两个值。
02:00
值说明它是二维的啊,说明它是二维的啊,那么也就是说,如果你想要去判断它的一个数值就是几维,你可以通过这种方式叫做len啊,a.C啊,那就是啊,那么再来如果我们想要去判断它的一个数据类型是什么啊,数据类型是什么?我们可以通过这个方式叫做a. d detecta.d detect我们来看一下name的数据类型是object object,那么实际上它是一个字符串类型,对吧?Sex类型它也是object age的类型来看IN64,就跟我们Python里边的那个in类型是一样的,Height类型IN64 wait类型IN64和类型object grade是IN64,这个object就相当于是这个字符串类型,相当于是字符串类型。再来下面就是你能够去找它的index,找到它的column,也能够去找到它的value,我来都写一下啊,就是a.index来,它就是123456啊,它的类型是in。
03:00
64,那么就是a.columns它应该也是一个in X,那么它就是里边的类型是object对吧?Object,然后再来就是a.Y64a.Y64,那y.Y64大家觉得它是是不是就到了我们这个二维速度了呀,啊这个二维列表,那么这是这个东西啊,我们上面其实生成它的时候也是这个二维列表啊一样,这个value就是把index和column都去掉之后的一个样子啊,那么下面就是我们可以去查询它的一个整体的情况,我们来看它的整体的情况,这个整体的情况来,你可以去查一下head,查一下head,那么就能够去找到说头三行的一个信息,我们来看一下前三行的,如果你默认不写的话,就是a.hede它应该输出的是五行的信息啊,五行的信息,那么就是害的,同样你可以用QQ,那Q因为不行,默认是五行,那么你给他写Q3行,那么它就是后面这三行,后面这三行那么就是。
04:00
是表头啊,就是这个表头的几行和表尾的几行使用这样的方式去写的,那么再来它有一个音份,这个份是比较经常常用的啊,给大家来看一下这个iner是什么样的作用,就是比如说a.iner它里边会有很多的信息来这个地方是它的一个类名,对吧,就是它叫做data f下面这个是IN64的一个index是五个,然后ENT,然后一到五,然后data columns是总共有七个columns,这些这些都能够看得懂,再来往下name是五个非空的object,我们将来再去用iner的时候,有可能能够看得到,说它这个地方告诉你是有多少个not not not也有多少个是not,那么你就能够通过这些个是not去给他做一些个处理,就是说是not,我们在做计算的时候,不好去做计算,你可能要给他一个固定的值,比如说某一个人的性别是not啊性别他有可能录入的时候录入。
05:00
错了,或者没录入上就是那对吧,那么如果它的性别是那的话,我们怎么办?可以给他一个默认值,比如说默认就是一,或者默认就是零,否则的话你去做计算的时候也不是很好计算,或者是你把包含no的那个值直接就删掉,我不用这一行了,因为它信息不完整,OK,那么这个东西就是能够去把那的那个东西去掉,比如说我们给他做一个修改吧,做一个修改就是比如说某一个人的address没有,那么我们想要找到address的第三个是怎么怎么找呀,就是叫做a.look中括号三,然后再中括号address引号引号啊A点和address,我看一下是不是来广州天河,我们可以把它给变成一个叫做np.na na now是n na嘛,np.np.now记不清了,搜一下叫做N。
06:00
p.n na,我记得是这个np.na啊np.n na啊n na这个东西来啊,没有NT啊,我就说刚才怎么没有出现这个代码提示,我还以为我写错了import number,然后SNT在这,那么它这里面就说呃,A value is trying To Be set ona copy of sli of data frame,你不要管它,你看一下,那么A看一下是什么没变化吧,那就说明它这个说的是对的,我们把它不值给了一个叫做呃,什么什么东西,我们把它去掉看一下,去掉就错了,去掉应该把address放前面吧,去掉那个东西就得把address放在前面了啊来改一下叫做address,然后后面给他一个三啊三三我们来这时候你在A把这时候你在A就变大了,也就是说我们把address的第三个内容给它变成了啊要变成了,那么这种情况就能够。
07:00
去这个地方就知道了,那么我们再来去看A点一分,A点一分总感觉跟刚才不一样了呢,没写括号,比如说一看就错了,对吧?来,那么这个东西就是a.in份,a.in份来看其他都是五个拿塔大的值,就只有一个是四个拿塔大的吧,所以address应该就有一个是not,跟别人不一样啊,有一个是not OK,然后我们再来继续啊,继续刚才看到了这个if describe this describe,我们来看一下this describe也是一个经常用到的值,我们可以看一下它的一个分布的情况,Describe分布的情况来看第一个它总共有多少个值,是不是有五个呀?Me,对于age来说,它的一个平均数是多少?对于H来说,它的一个是std是标准差,它的一个标准差是多少,最大最小值是18,那么这个是叫做一分位数,这个叫做二分位数,二分位数就是中位数啊,二位数就是中位数,这是三。
08:00
分位数,这是最大值,它是有一个分布的塔,它有一个分布的,那么再往这边看,这个高度也一样,它有一个count,多少有一个中平均数,有一个标准差,那我之前说过这个标准差是什么意思,大家还记得吗?嗯,啊,平方差就是方差开根号对吧?那我就想问的是说,方差它代表着到底是什么意思?比如说如果方差大代表着什么意思,如果方差小代表什么意思啊,就是数据的分布啊,数据的分布,比如说这是它的一个平均值,那么如果数据的分布是这个样子的,那么它的方差可能就挺大的,那么如果数据的分布是这个样子的,是不是方差就会小呀,对吧?相当于说数据距离平均值越近,方差就越小,数据距离平均值越远,方差就越大啊,那么方差大,标准差就大,那么就是诶,我说的这个话是有问题的啊,说这句话是有问题的。
09:00
如果方差大于一的时候,方差越大,标准差越大,如果方差小于一的候,方差越大,标准差越小,不对啊对啊对啊对,所以我这个刚刚说的有这个呃,有问题啊,所以要纠正过来,那么这个值是它的方差,那么下面的这一个,我是不是昨天说了一个相线图呀,这些就能够画出来相线图来画,相线图怎么画的来着?首先有一个最小值,再给它来一个最大值,然后中间是一个小箱子,然后小箱子中间再来一道值,是不是这个样子的,这个样子,那么这个就就是相电图,那我想问一下啊,这一段有一个距离,比如说这个距离是20,那么这一段它有一个距离,比如说这个距离是五,那么代表着什么意思?就是距离越大,代表着这一段距离所包含的数据就越稀疏,包含的数据是一样多的吧。我们在。
10:00
来你们已经忘了是吧?我们在做这个四分位的时候,我们首先去找到这个数据的中位数,再去找到这个数据中位数左边的中位数和中右边的中位数,对吧?这个数值它这边所包含的个数,比如说是四个,这是这是不是也得是四个,这也得是四个,这得是四个,所以不是数值多少,而是说当这个距离越大,就是都包含四个,但是我这是20个距离包含四个,你这是五个距离包含四个,是不是我这就稀疏,你这就稠密啊,对吧?啊,那么这就是说离得越远也就越稀疏,离得越近也就越稠密。所以象线图是怎么样看的,实际上就是为了去看它哪个地方稀疏,哪个地方稠密,比如说是这个样子的一个象限图,那么这一段就相对来说很系数,这一段就相对来说很稠密。那么也就是说大部分的数据都。
11:00
是包含在这么一小块里面对吧?啊,那么这里面的数据就很容密,那么这就是我们的相线图啊,那么说到这儿给大家去说一下相线图啊,那么说到别的,我们再说一下其他的图,然后我们再来下面的话就是list啊,List和nrra的一个查询方式啊,我们可以多看一下,第一个就是我们复制一下A,我们这个A有没有,呃,有是吧?来A,那么这个就是可以类似于列表方式的去查,去查,那他查的就是上面这个值啊,他查就上面这个值,我来看一下这值有吗?那块没有啊,有啊,那个没有,那么我们里边是不是没有那面啊,因为它不是数值啊,因为它不是数值,数值的话会有,那你说你给我一个name,小红小黑小黄,它怎么做平均数啊,三数表,所以这个name是有的,那么name就是这个,然后还可以用a.name啊,a.name这个东西我不常用啊,几乎没用过,那么再来它也可以用的是两个中括号,那么两个中括号是什么?
12:00
么意思,叫做可以生成一个新的data frame,那么这个新的data frame就包含两个列,那么第一列叫做name,第二列叫做address,来看一下,生成一个新的列data frame,然后这个data frame里面就是有name和address,然后再来下面的话就是查询好,我们可以去这样去查询好啊,这样去查就好。如果说我们不用这个冒号,直接用二,不可以不可以啊,不可以,因为如果你没有冒号,它代表的是查询列,那列里面没有R,所以它应该会报错,那么如果你用冒号二,也就是说你用切片的方式,它是按行来切片,我们来看一下,按行来写,把前两行给我们了,零一啊,零一这两行给我们了,那么如果说我们要的是叫做A中括号,这个是一冒号二,那么它是不是就会给我返回一号呀,对吧,那么再来就是这个这个值,这个是大家看一下会返回什么东西,二从第二个。
13:00
开始对吧,五到第五个,然后再来一个二是每隔两每隔一个显示一次,什么意思也不长是二对吧,也就是说二第二是不是这个显示的是不是小红和小蓝呀,看一下是吧是吧,它应该显示的小小红和小蓝这两行啊,小红小蓝好,那么最后就是单这个查询单值,查询单值就是先列后行啊,查询单局就先列后行,哎这种就能查到啊第二个小花,还有就是这个panda斯专用的这种查询方式啊,专用查询方式,专用的查询方式我之前用过,叫做点look啊点look,那么它这种查询方式我们可以试一下,那么就是中括号引号,比如说没有引号,比如说来个一,然后是中括号引号叫做name,来看一下小明,那么这个如果我们给的是二的,如果我们给的是二,它是什么?来,如果把它变成二,它是什么?小华吧,因为。
14:00
下面这个应该是一样的,对吧,看一下小换啊,所以就是点log,就是把它做一个叫做调换是吧?调换就是先续行后去列啊,先续行后后取列,然后还可以用ILO ILO是什么?叫做来a.ILO这个也稍微常用一点啊,ILO的意思是指说啊,这个lo的意意思是指说我们要去找的是因用in这个词去找,我把这个值给大家去做一个变换吧,比如说我把A的呃,Index做一个变换,想想a.index也就等于一个中括号,比如说给它变成引号,叫做C逗号引号B逗号引号C逗号引号B逗号引号B,它是不是总共就五个呀,我要变换一下啊,那么A点1X就有了,有了之后来我们再用它去查的时候。
15:00
怎么查,是不是前面得用叫做B啊,B小花,那么B小花对吧?那么来我们再去a.I log中括号,那么如果我们给它一个一中括号引号name,大家觉得这是什么?应该还是小华吧,我们把A先打印一下吧,把A打印一下给大家看一下啊,AA是小明,小华,小红,小青、小蓝,那么这个地方我给他的一应该是小华,那么这个地方我们说如果我们想要用A来表示,比如说A,那还有什么小明啊,我感觉他会报错是吧?为什么会报错呢?就是因为ILO是说必须用inex去查找啊I lock是用index查找,那么如果你要用A,你就用lock,那么如果你用的是A,如果你用的是lock,能不能够写这个地方写一啊,能吗?能吗?所以就是如果你用INDEX9。把那个I加上,如果你要不用in,那么你就用这个东西啊来学习啊,这就是lock和ILO之间的一个区别,然后它下面应该是有很多的练习了,我把它这个练习都练一下啊,第一个就是叫做有lock来去查询第一个一,那么它会给我们返回的,是啊,我已经把它变成A的是吧,因为跟之前那个不一样了,那么他就给我们返回的是这个一行数据。
16:21
啊,一行数据,那么如果我们用ILO1,它一样会给我们返回一行数据,我们来看一下一样是一行数据,然后如果我们要用的是a.log这个值,这个值是什么意思?前面有个冒号大家能看到吧,那也就是说前面的内容我全都要,也就是说行,呃,也就是说所有的行我都要只去获取name的这一列,那是不是就会把name这一列给我们返回回来name的这一列,然后那么下面这个ILO后面给一个零是不是?诶少写个A啊,后面给一个零什么意思啊,就是把这一列,就是把这个第零列,第零列应该就是那把第零列全部都给我们啊,跟上面是一样,我们把这个这点练习练完我们就完事,剩下切切片的话,明天我再讲啊,下午的话继续把最后语句和那个数学给大家稍微讲一讲啊,来再来就是多列的查询,多列的查询ctrl name和。
17:22
Address,那么其实这个东西跟什么很类似啊,叫做A中括号中括号引号内逗号引号address所这个是很类似的,来看一下是不是跟这个很类似呀,一样的对吧,我把它删掉也可以啊,就这样一样啊,那么用ILO,你就得在前面加一个引号来表示说你想要的是所有的列,那么这个也可以用这个ILO和ILO里边你可以用零到来再看一下它这个东跟刚也是一样的吧,跟刚刚刚的那个也是一样的,那么零逗号五就代表的是你想要的是第零个和第五个数据,那么这个是查询单个单元格啊,来一已经没了,我们把它改成A,那么它就能够查到小明,那么如果查的是这个这个lock啊,可以改成at,这个lock跟at是一个意思,Lock跟at是一个意思,我把刚刚的那个lock loc都可以改成at啊,把I lock都可以改成。
18:22
I I at,我把它对一下看一下啊,就是at alo是一个意思啊,这个地方是ILO,那么就可以改成I at I at based in only have indexes,什么意思,试一下啊,难道说不一样,我没怎么用过啊,没不一样,Miss one require的什么column来一逗号二试一下,诶,它这么做是可以的,那看来跟lock还是不一样,跟lock还是不一样,我没怎么用过at,我都是用的lock啊,跟lock看来还是不一样,那lock的话我想一下啊,Lock的话我们可以用Java这种形式去做这个切片,我们at不能做切片吗?果然啊,艾特不能做切片,那就是at特和lock有区别啊,那就at特和lock有区别,那么at特是不能做切片的啊,不能做切片,然后不能够获取多行,它只能够获取到某一个位置啊,具体的某一个位置,所以就可以用12213,什么56626没有,那就给他个五差零加344。
19:22
0234啊,所以就是这个I艾只能够获取到一个值啊,然后完了这边也没了啊,剩下这些个可以试一下啊,这把这都试一下,看是什么意思,什么东西啊,这个是说这个是什么意思啊,取得第零行的第零个数和第五个数,来我们把A标签A先给大家去打一下,我们看一下这个东西是什么,那么A是这个,我们说第零行的第零个数是小明,第五个数是61,那么这个它所打印的应该就是小明和61,我们来看一下小明啊,012012345啊,第五个是有转对吧,那就是应该是北京北京海淀,那么第二个025看一下是什么,第零个和第二个是小明和小红,小明和小红的第五个就是address是北京海淀和。
20:22
大是吧,我们来打印一下,看一下是不是right这个东西是可以这么去做定位的啦,二的第二没错没错,这是这是第零行,这是第二行,把第零行和第二行的第五列数据取出来,对吧?把第零行和第二行的第五列数据取出来,所以是北京海淀和那那下一个啊,把这个就是掉下一个就是这个lock啊,这个是说我们取的是第零行和第二行。第一行和第二行取的是第零列和第五列,是不是就是相当于是第零行和第二行,第零列和第五列是不是就是这俩值,这个值这个值这个值和这个值啊对吧,这四个值来看一下是不是这样来看小明小红,然后北京海淀,然后na。
我来说两句