00:00
第一个叫做条形图,那么条形图是什么样子啊,大体上的条形图都是这个样子的来,比如说我们有一堆的数据,那么这个数据是1233。五,那么这个东西画成条形数大概是这个样子的,这个样子的,那么怎么去做条呢?来比如说它从下到上是12345,这是五个数吧,那么这边是12345,那么三大概就在这,二大概就在这,一大概就在这儿,然后四在这,五在这儿,好,那么如果第一个数是一,那么它所画出来的就是这个样子啊,我这个一画的有点偏啊,那么第二个是二,那么就是大概应该就是这个样子啊,这是不是二啊,然后大概这个这这个是三,那么它就是三,这就是三,那么第四个也是三,那么就是三,第五个第五个是不是五呀,那么第五个就应该一直到啊,这就是我们的一个叫做条形图啊,因为如果正常的话,应该给他画一点颜色是吧,画点黄色啊,黄色。
01:12
然后最下面这个是蓝色,然后这个是紫色,这个是绿色,这是黄色,诶这是一样的颜色,这个黄色能用能用什么,能用桶弄啊,但是我怕他不得封闭好是吧?啊,我这没封闭好啊,封没封闭好我怕它有问题,那么就是这样的一个就是叫做条形图啊条形图那我再来看第二个,第二个我们给他画一个图,第二个图叫做折线图啊,折线图我们来画一下这个折线啊,那么这个第二个叫做折线图,那么我先给大家说一个事情啊,就是这个东西,如果我们想象一下这个西如果把它调过来。就是这样子给它做一个翻转,不对,是这个样子,给他做一个翻转啊,它就是叫做柱转图,但是其实是一个东西啊呃,没什么区别,柱状状图啊,都是同一个东西啊,没什么区别,那么这个这一类就都代表成一个意思了啊,我们再来看这个折线,我们依然以12335为例,那12335它都有下标,它的下标是0123。
02:24
四啊,它下边01234,我们来看,那它的折线图要怎么画啊,来个粉粉的做这个折线图是吧?啊,那么折线图来我们来标注一下,这是一,这是二,这是三,这是四,这是五,那么上面一样啊,一好像画的又有点大了,2345OK,那么对于第一个点,它是零和一这一个点对吧,它是零和一,那么零和一我们选一个颜色啊,选一个颜色零,X轴是零啊,我们以下面这个作为X轴的话,那么就X轴是零,Y轴是一,它第一个点就在这,为什么总是有个圈呢?哈,然后那第二个就是这个,我们以第二个啊,第二个就是叫做一和二,那么一和二就是在一的这个点和二的这个点对吧?啊再来。
03:17
那么第三个就是叫做二和三,我就有点偏了,二和三,那么这个二和三在哪?二三应该在这儿吧,然后再来三和三三和三,那么三和三在哪?三和三应该在这儿吧,然后来第四个是四和五,那么四和五也画一下四四,呃,五五应该就在这个位置啊,四和五四和那四和五,那四应该在这是吧,我把它退合一下,四应该在这儿吧,四和五好,那么大体上我们把这条线给它连起来的话,我们用白线给它连着吧,白四吧。
04:02
白色两点上,那么这条线就是从这到这,从这再到这儿,从这儿再到这儿,从这再到这儿,那么这一条线就是叫做折线图,我们会把每一个点都呃都连上对吧?那么就是一条折线图啊,这个叫做折线图,那么还有人把它叫其他名啊,有人叫什么线形图啊,有人叫什么线形图,就不知道为什么啊好,那么就是这个折线图啊,就说到这,那么这个折线图,大家觉得折线图和柱状图它们之间有什么样的区别呢?折线图所要表示的是走势,对折线图表示的是按照X轴的一个增长,Y轴是有什么样的变化。这是折线图形的作用,而我们的条形图或者是柱状图,它的作用是说就是看一下有什么样的对比了,对吧,就是说比如说五和四它是怎么样的,四和三又是怎么样的一个对比,三和二又是怎么样一个对比,它并不是一个走势,并且我们折线图你可以给他画,比如说60个点没有问题,但是如果你这给60个条是不是就有点太丑了,对吧?所以这就是这个柱状图和我们折线图形的一个区别,折线图主要是走势啊,主要是走势,走势,那么它它你得说是跟谁的走势,是根据X轴的变化的一个走势,那么一般来说折线图我们都会怎么样去做这个做折线,大家知道我们折线图一般都怎么去做折线吗?我们一般是要首先把它按照X轴轴进行排序啊,第一个肯定是得按X轴进行排序,才能够看到按按按按X的不断增大,它会有什么样的。
05:46
这个效果啊,呃,说到这啊,折线图下一个图饼状图顶状图,今天今天这个折线图和柱状图是不是在我们那个报告里面都看到过,对吧?来顶状图第三个顶端图你们看到了吗?看到了是吧?啊就是那个什么呃,什么样的人的一个分类是吧?就百分比是多少,百分比是多少,就饼状图,那饼状图来给大家画一下啊饼状图饼状图一般是这个样子的,就是花一个大圆有个大圆,那么在这个大圆里边呢,它会找出说这个样子是一个,然后这个样子是一个。
06:28
然后是这个样子是一个,我画的这个可能有点丑是吧,这个样子是一个,那么总共就分12345,这是分五个类型了,五个类型它是这样的,它是对于每一个类型,比如说这个你占比大概这个要占比,这是个直角的话,占比的应该是百分之。25,那这个也看起来也像直角,25%,那这个看起来不像直角呢,就是20%啊,我们画百分号,百分号那这个看起来也挺小的,叫做18%,那这个看起来就更小了,就是百分之十二二,所以这种就叫做饼状图,那么这个饼状图它主要是来干嘛的,大家看就叫做比例对吗?比例当我们去工作的时候啊,领导经常会给我们干的一个事情就是画大饼啊,对吧,那他怎么给你画大饼呢?他就是说你看啊,你占我们公司的一个股份,占了0.1%啊,千分之一对吧?啊,就是千分之一,那么比如说就是0.10.100%分号,那么我们这个公司你占了0.1%,你不要小说这个0.1%啊,我们公司可能将来会有200亿的市。
07:49
值是吧?那你看200亿的市值乘以你这个0.1%是多少啊,两千万,然后拍一拍你的肩膀子,说小伙子好好干吧,对吧?那么这就是我们说画大饼对吧?就是把这个饼给你画大,即使你占的比例比较小,你也可能有很多东西,那么就是它用到的就是这个丙状图是吧?你占的就是这么一丢丢啊,所以这东西就是比例啊,就是我们丙状图主要是用来做比例的啊,主要是来做比例,下一个图叫做相线图,相线图这个东西是经常被用到的啊,没听过是吧?那么我们必须得给大家去说一下相线图是什么样子啊啊。
08:36
啊,象形图是吧,无所谓,我叫象线图啊,你你说象线图肯定听得懂啊,啊,他是画出来是这个样子的,我先把这个图给大家画出来啊,我我跟你说,我在没学之前,我刚看到这个图,我就觉得我操,这是什么图,大家跟大家说这东西它到底是一个什么样的东西,这个东西表示的是一个数据的分布,这个数据的分布,数据分布,那么数据分布分布的是什么?来给大家说一下啊,这里是最小值,那么这边是最大值,来它际上是这样的,它实际上是有一条坐标,那么这个坐标比如说这里是零,这里是三,那么三就是它的最小值,那么这边如果是500,那么500就是它的最大值,啊,这是它的最小值和最大值。
09:24
那么中间这又是什么?这个是它的一个叫做中位数啊,这里是它的一个叫做中位数,来我们拿下来,那么三这边是三,这边是500,这块应该是二百八啊,这你们都看不出来吗?二百八啊,二百八啊来那么这条线相当于是它的中位数,我写一下中位数来这条线,这条线相当于是它的叫做,我们先把这个值写下来吧,这是280,这是三,这是多少?一百五一百五,这边130,这边150,你看是不是很像。
10:03
啊,那么这边我们都给它画上啊,这边下来这边是280,这边是500,我大概应该是三百九啊,啊,感觉可能也这是相同的是吧,比较随便啊来那么来中间这个叫做中位数,大家应该已经理解了吧,对吧,这个叫做1/4位数,那么这边叫3/4位数,OK,理解什么意思了,我们来举个例子啊,比如说我们有一个数据叫做一。二三五七八九十九三九九八啊,那么这个一是它的最小值没有问题对吧?这个九是它的最大值中位数,我们来查一下1234567,由于是七个,取中间的那一个应该是五中位数取完了这个中位数是五之后,我们再来看五的这一侧是有五的这一侧是不是有1233个数呀,那么这三个数指的是。
11:13
二啊,这三位数取的是二,所以二就是它的1/4位数,那么这边是不是也有三个数啊,这边有三位数取的就是八,那么八就是它的1/4位数,假如说我们中间再给它加六啊,我们再把这个数值再给它中间加个六,我们再来看一下它的一个情况,就是12356789来写一下,就是如果是12356789,怎么去求这个1/4啊一。2356789,那么来看,对于这种情况,我们要去取它的中位数来看,最小值还是一,最大值还是九,那么中位数123456788的话,是不是取中间这两个呀,那中间这两个取完之后是几?6.5.65.5.55.5啊5.5,那么取完这个之后在这。
12:04
给它一分为二,这边一个四个数,这边四个数,这边四个数的中位数是二和三,就是2.5,这边四个数,中位数是七和八,这就是7.5 OK了吧,两种情况,第一种情况是我们刚刚说的这种情况,如果中间只有一个,把中间的去掉,两边再去取,如果中间有两个,按照中间去分割,再去取它的中位数,这就是这这这不是就是相线图嘛,象限图就是从这划过来,然后这是一条竖线,然后画过来,这是一条竖线,然后这是一条竖线,这是一个最大的值,这是一个OK啊,这种东西叫做相线图,那为什么叫相线图呢?就是因为中间像箱子,两边向线叫相线图,那这个相线图是第几个我忘了看了。第四个了吧,啊,大概已经说了四个了啊,第四个那么再来给大家说一下啊,叫做下一个图,第五个图叫做我这还没记啊,但是我现在得想一下叫什么图,直方图啊,直方图直方图什么意思?来给大家画一下直方图大体上是这个样子的,然后是啊直方图,这个直方图是什么意思,来给大家说一下啊,直方图的意思是说,比如说他会把我们整个数据的分布,把我们整个数据的分布给它切分成这样的几块。
13:30
这分是这样的几块,是不是我大概画的每一块都是均匀的啊,就是这个每一块都是这个相等的长度,就是这一个长度等于这个长度,OK吧,等于这个长度等于这个长度,等于这个长度等于这个长度,那它是什么意思?就是数据在比如说就是零到十到20到30到40到50到60,它的意思是说在零到十的这个里面的数据大概有这些个,比如说是70个。
14:04
这是零到十的数据,有70个,那么这个就是20到20的数据,假设说这是70的话,这大概也就是35吧,那么就零到20的数据大概有35个,呃,这个更小了,我们就20吧,20,那么就是20到30之间的数据是20个,那么30到40之间的数据跟这个差不多,是70个,40到50之间的数据是二十二十五个吧,25个,那么这个这个我们算是19个,18个。就是50到60之间的数据是18个,它是不是代表是一种数据分布的情况呀,对吧,就相当于是零到十之间的数据大概有多少个,十到20之间的数据有多少个,20到30之间数据有多少个,30到40之间数据有多少个,40到50数据多少,大概50到60的数据有多少,它是这样的一个意思啊,这种东西叫直方图,千万别跟我们之前所说的那个柱状图火桥了,对吧,柱状图是这种,柱状图是这种的,那这种柱状图的话,它代表的是某一个数据它有多少个,某一个数据它有多少个,某一个数据它有多少个是这样的,这里面是说一段数据内有多少个内容,一段数据内它有多少个内容。
15:28
啊,就是这样,那么这个呃叫做直方图,它们俩相差很远啊,千万不要混淆了,这叫柱状图,柱状图代表的是每一个东西多少个,而直方图代表的是每一段东西多少,每一段东西多少它是表示的是分布,它不能够看出来具体每一个值,比如说你说零到十之间是有70个,那一有多少个不知道啊,一有多少个不知道,但是这里边一有多少个你只是知道OK啊,那这个的话就是我们这个直方图,我们再来看一下还有没有别的直方图,那最多用的可能还有一个东西啊,这个我虽然没有写下来,但是可以给大家说一下,还有一个用的最多的东西叫做散点图,散点图那散点图是什么?就是一个坐标,再来一个坐标,然后我们有一堆的数据,那么就一堆的点。
16:21
我这个点可能点的有点有点大啊,但是你就把它想象成点,就是很多东西都要靠我们想象对吧?啊想象就行了,这只是一堆的点,这就叫散点图,散点图什么作用,大家来看散点图什么散点图也是要去看数据的分布来看啊,这里我可能画的分布并不是很明显,如果大家去画一下比较明显的一种分布来就是。这是不是一种分布呀,啊,这就是一种分布,那还有可能比如说它是这样的分布,是不是也是分布呀,也就说明这一段可能没有这一段就很多对吧?啊,那么也有可能是任务分布啊,啊,这也是分布,那么这里面也有几个,但是这大多数都是在这儿啊,也有可能是这务分布啊,所以返点图主要是看出来的是如何去做的分布,所以这些个图在我们的这个呃数据分析里面是很重要的,所以我先给大家去把这些图给大家讲出来,呃,还有个十几分钟给大家去讲一讲,呃,什么呢?这个叫样本和总和,然后和总和,那么什么叫做样本,什么叫做总和,那么实际上是这样的,在我们所有的一个所有的数据里边啊,如果你是全部的数据,那么他就叫做总和,总和比如说我们班所有的学生,那如果所有的学生都在我们这一堆数据里面,是不是他就。
17:49
总,那么样本是什么意思?就是我们在这个里边做随机的一个抽取,做完随机的一个抽取之后,我们把这一些随机的抽取给它挪到一起啊,随机的抽取挪到一起,挪成一小块,这个东西叫做样本。
18:09
注意啊,我们不是说去连续的获取一小段,而是说我们去做随机的抽取,或者你也可以把它想象成说这里边有很多的东西,我们按照某一种,就是我们按照随机的顺序给它做完了,然后去取这么一点,是不是也算样本啊,那么这个就是样本去取总和内的一部分,这个就叫做样本特别比如说什么意思,就是我们班所有的同学OK,都在这了,然后我把你们所有的学号啊,或者说身份证号聚集到一起。这聚集到一起之后,我是不是可以做随机呀,随机出来五个放到这儿,那么这种这五个就叫做样本啊,这五个叫样本。好,那么再来说一个大体上的一个关系啊,就是总和里面,比如说这个总和里面有包括数字,叫做12334567。
19:10
八九十呃,一直很多很多啊,很多很多,那么这些东西它所代表的一个平均数啊,这些东西它所代表的一个平均数,那么就可以叫做这个对吧,这个这个数学数学符号啊,用这个数学符号来表示,那么这个样本里面它所代表的平均数的就是。从这个里边去获取一些个数据的一个平均值,从这个里面获取一个新数据的一个平均值啊,当然这个符号可能因为呃,是这样的啊,符号在这个数学界里边,呃,没有特别统一啊,所以我这个东西有可能跟你们想象的是不一样的啊,那么这种就是说一个样本的一个叫做平均值,一般来说啊,一般来说,一般来说,那么就是样本的一个平均值是跟我们总和的一个叫做总和的一个平均值是相同的啊,不对,这没有这个啊,总体的一个平均值是相等的啊,一般来说是这样的啊,当然就是真实的世界跟我们去估计的永远是不一样的啊,真实的世界跟我们估计的永远是不一样的,所以这只是说我们的这个一般的情况啊,OK,那么样本和总和也讲完了,讲我们今天最大的一个事情,总体。
20:35
差总体方说一下总体总体总体方差方,这个大家知道总体方差啊,方差顾名思义又有方要有差,对吧?啊来给大家说一下总体方差是什么样的一个东西啊,是什么样的一个东西啊,比如说我们有一堆数据叫做三。3456,那么它的一个平均值是多少?三加三就是三加三加四加五加六除以12345除以五等于4.2啊等于4.2,好,那么这个东西这是它的一个平均数,我们想要去计算方差啊,方差啊这个东西代表方差啊,等于代表方差,方差就是叫做三减4.2括号外的平方加上三减去4.2括号外的平方,然后加上四减去4.2括号外的平方加上五减去4.2括号外的平方4.2,然后加上。
21:51
六减去4.2括号外的平方除以,那么除以五之后,我们来看计算一下它等于多少,等于多少,有没有计算器,我们直接用那个,呃,直接用Python就可以了啊,我们我们学Python的,我们用Python啊啊CMD啊,Python啊,Pyon啊,那么Python里边平方怎么怎么算平方什么。
22:20
两个相乘是吧,牛逼,我们有平方的这个这个这个这个函数啊,虽然第一个数三减4.2应该就等于应该就是叫做po括号前一个数叫做0.8,然后逗号二是不是0.8的平方呀,然后加上。0.8的平方就是po括号00.8,逗号二是负的1.8是吧?我写负的1.8啊,3.4.2等于负1.2啊,太突然了1.2啊有要不然我将在这条路上走的更远啊,负的00.2,然后逗号二,然后下一个是五减4.2,是不是0.8了呀啊,再加上po w括号是0.8逗号二,然后再去加上1.8的平方就是1.81.8乘以1.8啊,那么来算一下是不是6.8呀啊6.8,然后6.8再去除以五对吧,六点。
23:43
点八再去除以五,那么就是6.8再去除以五,也就等于1.36啊,1.36啊,1.36怎么了?你们为这个有问题是吧?这个我跟大家说,所有的小数在做计算的时候都有可能会出现这个问题啊,都有可能会出现这个问题,所以不要纠结于这个问题啊,就是1.36啊1.36,那么这个地方就应该是我们的这个方差就应该等于1.3。
24:16
好,那么这个东西就是叫做方差啊,这个东西就叫方差,那么方差问跟大家说,方差它到底代表着什么样的意义,方差代表什么样的意义?来我们来说一下啊,方差代表着说我们的这个数据距离我们的这个平均值有多远。我再说一遍,方差代表着说我们的数据,数据是不是这个33456呀,它距离我们的平均值4.2有多远,我们假设再给他做一个4.2的,让他们平均离4.2都远一些,我们来看一下它会这样什么样的结果,这是33456,我们给他来一个小一点的,就是2245。
25:04
八,然后2458它们之间加起来是不是还是等于4.2啊,那么就是这个方差还是等于二,我们往下拉一拉啊,那么这个里面还是二,那么这个东西我给大家写一下吧,就是二加上二加上四加上五加上八是除以五还是等于四点二一样的,但是注意这个值,它所算出算出来的这个方差就不一样了,来看二减4.2。括号外的平方加上二减4.2括号外的平方再加上四减4.2括号外的平方,再加上五减4.2括号的平方,再加上八减4.2括号外的平方再去除以,那么它等于多少?不知道是吧?来算一下,就是就是这个是我们这个平方,有点算的太麻烦了是吧。
26:04
那就是直接写几乘几吧,2.2乘以2.2对不对?来写个括号,就是2.2乘以2.2没有问题吧,然后去加上下一个是2.2乘以2.2,那么前面就乘以二乘以二。那直接加吧,要不然你们有可能看不清啊,2.2乘以2.2,再去加上四减四减二是0.2乘以0.2,再去加上后面这是五减4.2是0.8对吧,0.8乘乘以0.8,再去加上3.8乘以3.83.8乘以3.8,然后再去除以五,我们来看一下4.69,我们来把它写上啊4.69啊4.96,那么就是等于是叫做4.96。
27:08
那么我们来看这个方差是4.96,上面的这个方差是多少?之前这个方差是1.36吧,我们把之前这个方差写下来啊,之前的方差它是1.36,什么意思?就是由于我们下面的这一组数据,它距离我们来下面这组数据这个二和这个二是不是距离它就更远了呀,原来的这个是33456,那么这个是22458,是不是22458距离它更远啊,33456距离它更近,所以对于33456的方差就要小于。22458的一个方差,它描述的是我们的数据距离平均值的一个远近,OK啊,描述的是数据距离我们平均值的一个远近,用的叫做方差。
我来说两句