00:00
你看在D盘的数据初级不对,就在D盘的2000万里面,对吧,D盘的2000万的那个前200万啊,我们来写一下,选RC,它实际上可以就是放到我们panda斯里边,刚才我们那个打不开,它是panda斯是能打开的,对吧?就是PD点瑞的下划线CSV,然后括号,括号里面你就可以去指定你的那个文件是什么,比如说我们要指定的文件就是这个值,然后杠杠下面就是一到200万.csv啊来看一下,那么给它一个返回值,它返回值是叫做data frame叫做D,也就诶就是叫做DF,也就等于这个值,诶啊它会加载一阵子啊,那么这个时候我来练习一下啊,其实你点这就能够暂停它的加载来,你看啊,点这就暂停了,它就加载了,那么其实如果你不暂停的话,它就会一直去。
01:00
加载啊,一直加载,能加载很久好了,那么现在是星儿,注意啊,这个地方是星,说明它一直在加载啊,一直在加载,那么你去看完事了啊,已经加载完了,已经加载完了,那你可以去通过DF去看一下它有什么值是吧,这叫什么,这人叫什么陈萌是吧,如果有发现我们的学员的话,一定要告诉我,我直接给他关掉哈房,你看他的这个电话是多少,然后是男生还是女生,然后呃,生日是什么1900年啊,这应该是假的啊,都是1900年,那你看身份证号就好了,他应该有身份证号吧,北京苏州街中间省略了很多啊,你可以取第第一个就是中国号零,看一下中括号零,不行,那就等会儿,我刚才看的DF是啥来着,看一眼啊,看一眼DF是啥啊,那么它没有零,你是每一列吧,如果要举的是那个,呃,每一行的话是用LC,然后。
02:00
从中括号零,你就能够取到第一第一行,你看就这些就这些信息嘛,他其实就是这些个信息,不要觉得他有什么什么问题是吧,没有没有任何东西,2012年啊,这已经很久以前了,你可以这样,就是中国号,中国号一逗号二应该也可以吧,来看第一个,第一个人是这个人零一应该是对吧,我们要找零和一,零和一,第零是陈萌,第二个是这个人,你看他们就信息都不一样了,那我们来继续把之前的看一下啊,那么上一节课的话,我们就把这个theirs就讲完了,那么讲完了theirs之后,我们再去看下一个,应该就是这个叫做data frame,我们这边用到的这个东西就是data frame,来看它是不是就把这样的一个表格打进来了,那么实际上我们可以去看一下,它实际上就是一个表格,二维的这些东西,就是他的一些个数据,这是第二个人下面第三个人,第四个人,第五个人都会有啊,都会有,呃,数据分析报告。
03:00
九世界杯世这个是吧?啊,那就是这些信息也可以去打开,我们先可以先打开这个CSV看一下啊,就是这里面其实是有很多的信息的,你看它这种就是属于一个表格类型的,至于他这个URL是干嘛,我就不太清楚了,然后前面的这些东西我们是能够看得到的,就比如说什么ID啊,什么match啊,这些东西都是我们让你,我让你们爬的内容,那么这些个东西我们可以给它就是呃,导进来看一下啊,我就导这个吧,叫做Fi FA world cup啊,我们就导这个把它导进来,那么把它导进来的话,我们要去先去看一下这个地址在哪啊,看看一下地址,那么地址的话就在这个位置啊,这个位置下面的FIFA这个东西我们把它导进来,导进来跟刚才一样,就是DF,我们就给它替换掉了,也就等于啥来着,Pd panda.v的下划线,CSCSV,然后。
04:00
括号,括号里面是引号CTRLV,然后这个东西杠要多加一个杠来表示它是呃,转E,那么如果不想转移是不是前面加R也行啊,我记得前面加R也可以,那么就不用转译了是吧?加R你们知道什么意思吧?啊,原来字不需就是是吧?那么这个东西我们就可以把它导入进来,我们来看一下能不能导入啊啊还缺还缺,那么在下面的这个值啊,重命名把它导过来,TRLC,然后CTRLV来看一下,报错了fair什么情况,杠杠应该跟杠杠没有关系啊,因为我已经用R了,跟杠杠应该是没有关系的,那么应该是呃,它的这个数据的CSV格式不是很正确啊,看应该是它数据的CSV格式不是很正确啊,所以会导致这个问题,我们来看一下它数据的CSV格式吧,以逗号分格看看,来看一下它是哪报的错吧,呃,在pass的这个地方报的错,那么一直找到最后就。
05:00
这个。Read的地方报的错,就是读的时候报的错,读的时候报的错,报的错误叫做setup page false initialize from fair field的,那么也就是说把这个文件做initialize是有问题的,我跟上面写的没区别啊,什么情况算了不浪费时间啊,不浪费时间,我们我下去的时候看一下它这个就是有什么问题吧,上一个是能导入的,这个应该是哪块有问题,这个格式上或者什么上面有可能有问题会看一下,好,那么我们一维的这个对象就讲完了,我现在就就来讲这个二维的对象啊,我们点开二维的这个对象,这个2000对象的话,就是它的生成来看,就是这个样子去生成了,我们直接把它复制过来,比C把它复制过来,CTRL为回撤来看,对于我们的这个对象来说,我们给它传进来的是一个二维的列表。由于二维的列表,我们说它就是外层有一个列表,内层还有一个页列表,就是逗号二,逗号三,逗号四这样子的一个读写是吧,两层的列表一逗号三,逗号五,逗号七啊这样的一个东西,OK,那么这种就是二维的一个列表,那么对于这种二维的列表,它就能够转成一个PD,叫做date free,那么能够看到它里面包含两样东西,第一样东西叫做index index是不是就这个呀?今天我已经说过了,Column column就是上面这一个。
06:31
啊,所以就是列名和一个行的一列词,或者叫行名,那么如果我们要去获取到这个内容,我们来看一下,看这边就是每一个这个东西都是一个series,我刚刚给大家去做过,比如说我们想要去找的是d.log这是不是取的是行呀,X引号X1,这样的话就取到了第一行的一个series,我们来看一下什么样,第一行的一个第一行的一个series,看看就是一,这个Y1 Y2Y3,是不是就这个Y1Y2Y3做对应,对啊啊,好,我们来不我们不管,我们来继续,那么这里面就是都是用的是series,那么这种表格的数据结构来看下面这个,它是不是就类似于Excel或者CSV,或者是数据库中的那种RV的表上,他用的是非常广泛的,也就是说,我们其实可以通过Excel,叫做CSV,或者是数据库,直接把数据存储到我们的这个panda里面就可以。
07:32
表,好,那么再来往后考就是data frame可以由data多个series组成,那么把每个series它挪到一起,相当于就是我们的这个非常frame的这个表,再往下就是这个二维的带标签的速度,或者是有Z的这个字点其实都可以啊,然后这个inex是零轴,零轴一般用AX is等于零来表示这个AX它的英文翻译过来就是轴,它就是轴,那么这个就是一,那么以后看到这个axis等于一,那么它就代表的是以列作为这个呃,缩引啊,以列的缩引。来再往下看对象的创建啊,这个地方就有一个对象的创建,我们这样一个对象创建是不是跟这个差不多呀,来看我们把它复制过来啊,复制过来那么这种这个创建实际上跟这个是差不多的,也是外层一个列表,然后内层两个列表。
08:32
啊内列表,但是你注意它没有去指定inex对吧,那么它index是什么?3456啊0123456,我们来看一下他的一诶0123456啊0123456 0123456,那这个叫小名,这个叫小华,我们班有叫什么什么名字吗?没有啊,那么再来继续这个地方,这个地方我们就把它已经创建成了这一个最但是如果说我们想要去自定义它的这个,这个叫做列的索引的话,是不是可以直接把这个东西复制过来可以啊。
09:08
把列索引直接给它复制到这个列表的后面呗,那么就可以去指定它的列索引表,来,我们来去定一下这个它列作业是不是就是name sex is great和address和great,我这里面说一个问题啊,呃,今天我看到有人用那个写数据库的时候,把表名用汉语写,不要怎么写啊,一定要用英啊,一定要用语来写,就是表名一定要用英语来写,你存值的时候和法语没有关系,但是表名上用英语来写啊,表名和column name和列名都要用字,呃,英语来写啊,表名和列名都要用英语来写,但这里面是可以用汉语啊,比如说这个你可以叫它姓名啊。但是不介意啊,就是我不介意有很多人是这么写的啊,比如这个叫姓名,这个叫性别啊,那么这些都可以去实现啊,这就是姓名性别,呃,这里面无所谓啊,这里面如果你写汉语是没关系的啊,虽然我不这么写,但是你们可以随便啊,但是数据库一定要是英语的啊,这是增表这个力量,好,我们再来看下一个,下一个就是叫做,呃是叫什么来着,就是他从这个意思啊,是说这个组成的这个字点去创建的时候必须等长,否则就会报错,我们来把这个它的报错看一下吧,CY6等于这个我们把它整个复制一下啊,C6 CTRLV,然后们来打印一下C,它这边有啊,那如果我们给它增加一个,比如说我们给它增加一个东西,就叫做S,再给它多加一个一,我们来看一下,它就报错了,那么这种情况是什么样子啊,就是我们外层是一个列表,不是外层是一个字典,而内。
10:52
这层序的一个列表,那么这个列表里面内包含很多的数据,Sex包含了很多的数据,A包含很多的数据,那么这些个数据的量必须要一样,否则的话就会报错啊,这数据量你得是一样的,那么他就会把内部和小明和小华,这就是我们这个表里面的一行还是一列啊,这个这应该是一列了,那么sex叫name sex age应该是一行,Name sex age,那么每一个都是这样的一行,然后这个每一个这个列表都是一个列啊,都是一列,好,那么这里面其实呃,我们再去执行它的时候,可不可以去更改成的index啊,可以吧,我们也可以去给它指定index,比如说我们指定给它index,也就等于中括号里面是二四六八十,一共是几个,是五个嘛,12345啊,二四六八十的,那么竟然是报错啊,我以前的时候,我记得他是。
11:52
它是那个叫会以捺作为补充的啊,我怎么记得这么多错误呢?跟空格没关系,跟空格没关系啊,因为它组成的是列表,你里边有多少个空格没关系啊,我记错了,我我记得以前是会补充的,不知道为什么啊,不知道为什么啊,我怎么记里边这么多错误,不是改吧,我感觉应该是我记错了,那就是我把它记住啊,就是呃,如果这个index和里面的值不不对应的话,那么就会报错啊,那么把这个是好,那么这个呢,就是可以通过字典再加列表来去做,其实这个东西你感觉像不像,像不像什么,像像JA森啊,像像JA森啊,对吧,就这个东西可以转化成JA森,我今天的考试题里面就有啊,是不是还没给麦蒂小区房呢来,那么下面的话,我们就要做的事情就是叫做。
12:42
呃,这是指定,这是指定这个排序,你可以去给他重新指定一下这个排序,然后column会产生na,难道是我记错了吗?看一下啊,看一下如果它是这种情况的话,会产生什么东西啊,我来打印一下E好,就是果你在column的内里面给它多加一个内容,它会把它变成,但是你不能说在这个index里边去加,对吧。
13:10
啊,我就说我记着以前是能的,怎么现在不能了啊,那就是在Co里边可以去添加啊,可以添加,那么这个时候下面呢?啊,就是嵌套字典,对于这种嵌套字典的话,我们也可以去把它的内容给它拿出来就嵌套的,这我们来看一下嵌套字典的一个内容会是什么样子,嵌套字典OK,那么这个嵌套字典我来。跑一下哎,来了,那么这个是name对应的是这个name sex对应的这个sex age对应是这个age,并没有什么样的差别,但是注意一个问题,就是它内部的K啊,它内部的K是不是内部的K要做对了。啊,那个K有对应,对应然后们看就是这是一,这是一,但是一没有跟A值相对应的,所以A值它给我们的一个呢,二跟二跟二沟通一个也就是小华零零是什么意思,女性男性是男性还是女性,不知道你们这个是男性还是女性,我觉得应该是女性啊,我们中国是象声文字对吧?啊后面的话这个是三,三是小红,三是零,那么三是38,那么这个38也是啥,对吧,它是这样子,按照说我们的K是两个对应的,那么这个里面,如果我们把一里面也加上一个122给它一个。
14:31
12逗号,那是不是就一这个值就会变成12了啊啊啊就这是二好,那么这些内容我们就说完了啊不说了,那么他这个依然是会,那个叫做可以用index去做,叫什么来着。啊,指定那层字典的键啊,来看一下它是什么样的东西吧,然后那你不是搜我吗?我就看着不对,我就说来看一下什么东西吧,一看就不对啊,那么他这个我估计是可以把内部的这个去做一个排序,那做一个排序的话就是比如说13254,那也不行,12345,然后它内部说list object has no achieve as time,那就是这个东西是list object,不对啊,那不对啊,那他这就写什么。
15:22
指定内层。字典的键没有的,只会填充A,他为什么会这么写,我我我我就不知道这个东西是干嘛的啊,看不出来,比如说如果我们这有什么用啊,这这有什么用啊是吧,三逗号四逗号二逗号六完蛋没用啊,这东西看不出来什么用啊,我目前我看不出来什么用,我们先把它干掉,我回去我得研究一下这到底是什么意思啊。呃,看不出来啊,那再往下,再往下的话,就是我们可以去指定这个,呃,由serious去指定,Serious其实跟我们的那个叫做字典其实是很像的,对吧?我们上节课已经说了,Serious实际上跟字典是很像的,我们把它拿过来看一下,去列一下,好把它改掉,那么HVHLH_Y6是吧,HV啊,HY,那么再打印一下这个H看一下,那么H一样,它能够把这个内容拿过来,那么这个内容能拿过来之后,我们来看它这个index,依然是用index去给它做的对应,对吧?依然是用index做对应,那如果我把每一个index都给它删掉,那们都把它删掉,Index都删掉,大家猜测一下,这边是不是就变成012345了。
16:39
但是第一个就不会是call,而最后一个是会是call啊,应该是没电啊,上面必须行对吧?啊,我就说怎么能没电了啊来那么这样的话就能够拿到这个内容啊,就是他可以用figure去做创建啊。你看它上面又写了一个这个上面写了这个什么意思,我们再来拿过来一遍看一下啊,有什么意思,诶,这会可以直接成功了是吧,来看他的意思是说拿出来的是3426这三列是吧,那就是取三四。
17:15
二六,那么这个东西实际上就是跟我刚才说的那个有点像啊,就是可以去打到它的顺序,就是比如说现在是01234,那么我们可以把它变成10436 104310432,对吧,这样的话就会这个按照这个顺序重新去排序,10432啊按照这个序,这是它的一个in可以这么去写的一个作用啊好,那么下面的就是没啥了,这样没什么了啊,那下一个就是再去就是整个这个都是创建的啊,那下一个我把它推过来,这个是自动生成这个辅引的内容啊,自动生成辅引下面这个是接我们括号接,那么下面这个是K我们来括号,这个是不是看的有点不太清楚。
18:03
码K这样的好看一点啊,对于上面的这种情况啊,上面这种情况,这个你们可能还不知道它是干嘛的,对吧?这个你们不知道它是干嘛的,这个是NP2位十你们都知道是干嘛的,它是叫做生十个数,0.3456789,对吧?这是生成十个数,来看一下,我们先把答案拿过来,它是生成十个数,那么对于第十个数,我们可以把它做一个reip reip啊是英文,那么中文叫做重新塑形。啊,重新塑形,那么什么叫做重新塑形,就是我们可以把它变成两行一五列的一个数据啊,两行五列我们来看一下,这就变成了两行五列来看一下,如果用点尾序啊,它就会变成两行五列的一个两行五列对吧?0123456789,这是两行五列。它会变成两行五列,是不是就变成了我们二维的东西啊,以前是一维的,那么一维的话就是十。
19:07
啊,那么两枚的话就是两行五列,就是二逗号五,然后它这两行五列,那么这个东西是不是可以直接放到我们的这个那frame里面去给它生成这个数据呀,对吧,直接生成数据,那么这样的话就能够生成,我们这种情况就是01234,就是零一啊这样0123456789啊是能够生成的,那么下面的这个下面的这一个的话,它调用的是一个random函数,这个东西我我们也得讲,但是我可以给大家先看一下它到底是一个什么样的东西,过去我们讲了之后会有一个,呃。叫做比较直观的概念就行,这东西是给我们生成一个叫做六行四列的一个数据,对吧,六行四列六行这是一行,这是第二行,这是这是一行啊,下面就是第二行,那么它会给我们生成一个六行次列的数据,那么这个六行四列的数据,当我们用frame给它做成这方就是这个样子,是六行四列。
20:08
啊,ABCDABCD应该是他自己指定的吧。啊,应该是指定了abcd,指定abcd,这个指定1246。啊,那么整体的这个生成啊,基本上就是这个样子去生成啊,那下面这个地方,呃,就是叫做frame构造函数的支成的这个数据是什么样子,你可以去字典,可以是there,然后可以是这个N,然后可以是frame等等这些东西都可以啊,大家后续可以把这一段内容看一下。那么我们这个叫做data frame的生成啊,大概就到这。
我来说两句