00:00
今天的一个内容呢,就是稍微的去说一下什么是我们的这个数据分析的内容,我们最终要产出一个什么样的东西,还有就是我们要安装什么东西才可以去学习我们这个数据课程的内容,呃,先要了解什么是数据课程,那么数据课程其实大家能够看得出来,通过名字就知道它是一个跟数据相关的课程,跟数据相关的课程就一定要用到一个东西,叫做数学,但这个地方跟大家说,数学用到的并不是很麻烦,有哪些呃,需要了解的我会给大家去讲出来。然后第一个我们肯定是要了解一点点数学的,第二个就是我们要知道数据如何去做处理,如何能够通过数据去达到我们的效果,我们可以把简单看一下我们这个内容啊,那么今天我们的内容的话,就是就在我们这儿主要会学到的就是数据分析,就是说我们这个阶段叫做数据分析的一个。
01:00
就书籍阶段就是如何用Python去做数据分析,以及数据分析,它到底都是什么,那我们这里面有一个侧重点,叫做数据清洗,数据可视化,数据分析和呃建模预测,我们讲大体上也就是这些东西啊,大体上就是这些东西,那么库我们能够看到下面啊,特征的库,这个特征的库就包含pandas number派和make lab,那我分别说来说一下这个都是干嘛?S panda这个地方写的叫做数据预处理和数据分析库,它实际上是用来做什么,就是我们一堆数据拿到了之后,我们想要让他去做一些事情,那他到底你得去给他提前做一些个处理,处理什么呢?比如说里面可能有一些个闹值,就没值啊,没值怎么办?值错了怎么办?值特别大怎么办?值特别小怎么办啊等等这些这个东西都是由panda来去做的,那panda底层它会用到南派,那么na派又是什么东西,它是。
02:00
用来做数值计算了,也就是说我们数学里面,我刚才说了一个数学,数学里面你不可能说我拿自己算出来数往里面填吧,不可能,那么我们实际上是需要用一个库来去根据我们的收入去计算出一些内容的。啊,这就是单派的内容,那么最后一个micro lab,它是一个叫做数据可视化的东西,数据可视化是干什么?就是我们可以思考一个这个问题啊,就是其实我们,呃,这个数学啊,数学这个东西出现了不过也就是这么几百年,对吧?啊,也就不会就是出现了几百年,那么其实在我们远古时代的时候,整个啊,整个人都是靠什么来去做判断的呀,都是靠我们的眼睛去做的,也就是说都是要去靠各种各样的图像来去做判断,现在依然如此,当我们看到图的时候,我们会比较讲什么呢?比较开心,比较清晰的能够看的清楚这个内容是什么,如果我们看到的是一堆的数字,或者是一堆数学,最终统计后的一个结果,你可能就没有那么直观啊,没有那么好用啊,所以这个麦C啊,是说我们如何能够把我们想要的东西。
03:15
去给他释放出来,最后就是SKSK的话就是一个机器学习的库,我们这里面涉及到的会少一些,那么后续的课程可能会涉及到的多一些,那么这就是我们叫做呃,整个的内容,那么这个整个内容给大家说完之后,我要给大家去详细的说一下,我们什么叫做就这个数据分析,你们现在可能还是不知道他到底是在干什么,我一定要把这个数据分析的内容给大家说一下啊啊,数据分析它到底干什么?我看一下我我我画个图啊,我给大家画一个图,数据分析到底干什么?数据分析要解决的东西,我们先来一个总纲啊,数据分析要解决的东西,它叫做这个世界的真理是什么啊,这个世界真理是什么,什么意思啊,就这个数据分析是外国人发明的词儿,对吧,他们是信这个世界有上帝的,那么他信这个世界有上帝,他就认为说世界去创建这个上,这个是上帝去创建这个世界的时候,一定是遵循了一个什么样的道理啊,他一定是遵循什么样的道理,他跟我们什么的相关呢?就我们中国有一个人叫做老子,大家应该听过,对吧,老子,那么老子里边说他有一个理论叫做道啊,有了道,什么道和道,非常道为可名,非常名吧,啊,什么无名天下始,有名天下母啊,那就是这个老子的这个道啊。
04:44
啊和这个世界的真理,他们俩要去做一个结合,这两个东西加到一起,就是我们数据分析要去做的一个事情啊,我们数据分析干嘛,就是要去找这个道,就是要去找这个世界的真理来再来说这是我们数据分析的一个总纲,它到底是什么呢?比如说我们看待了一个事物啊,就是我们举一个很简单的例子吧,就是叫做某一个人啊,某一个人一个人来举例子,叫做关阳平平平。
05:19
哪哪个要看关三阳,哪个阳五撇三啊,关阳平当然不知道是不是真名啊,但是我们把它写在这儿,我们以他来举一个例子,那么什么叫做这个人的一个,就是世界的真理是什么?第一个,比如说我们可以给他一个小小的,就是说比如说他的一个同学吧,给他一个小小的评价,那么这个评价叫什么呢?叫做易怒。我们假设还不给他一个好评价吧,叫做温柔啊,那么假设说如果他的一个同学给他的一个标签叫做温柔,那么我想问的是他就这一个标签吗?不是的,他其实有很多很多的标签围着他啊,很多很多的标签围着他,只不过我们单拿出来的一个温柔啊,那么我们来把它所有的标签都写上的话,比如说他的一个身高啊,身高,比如说身高是身高是1.83,比如说体重是99公斤啊,设计啊,然后比如说这个头发是20厘米是吧,还有什么还有什么啊,颜色对吧?啊颜色,比如说是白色,那么它就有这么多的一个,就是叫做围着塔,它就只有这些吗?远远都。
06:49
不够法院,我比如说你还可以再去说他还有什么小的时候,小的时候被狗咬过是吧,然后尿床,哎,你们这个想的真多是吧?尿床次数是吧?尿床次数是吧?然后各种颜子啊,带过什么样颜色的帽子,喜欢什么颜色啊等等等等吧,啊我们就说,我们就说就先写这些,那么其实这些东西里边还有很多,我们一点点点来作为它的一个,呃,不停的来说啊,那么就是针对于这一个人,针对于这一个人来说,他有许许许许多多的一个叫做属性跟着他,他有这么多的属性来跟着他,那么这个人今天啊,今天我们来说一下,今天他买了一个LV的包啊,他买了一个LV的包,然后把这个东西给他拿过来,诶。
07:45
画一个线码哪个线呢?这个吧,那比如说这个人他有这么多的这个事情,但是他今天买了一个LV的包,我想问是什么属性,可能跟他买了一个LV的包有关系,当然你们可以去分析出啊,你们可以去做这样的一个分析,那么什么分析,就是被狗咬过,导致了他今天买了一个LV的包,来把颜色换一下啊,啊,你可以做这样的去,呃,这样的去设想啊,但是我们数据分析要做的事情就是为了达到让他能够去买一个LV的包,我们更关注他什么样的信息啊,就是说换句话来再来说一遍啊,就是为了能够让一个人去买一个LV的包,我们去分析这个买LV包的行为跟它的哪一个属性有。
08:45
干系,那有没有可能是因为他比较温柔啊,也有可能吧,哎,这个黄色有点太晃眼睛了啊,蓝色啊,有没有可能他会比较温柔,也有可能,有没有可能是因为他身高很高,有没有可能因为他颜色是白色,能有没有可能是因为他头发20厘米,有没有可能是因为他体重是九十千克啊,都有可能对吧?那么到底哪一个跟他的可能性更大一些啊?就是一个属性的可能会跟他买一个LV的包。
09:20
更大一些,其实这种是不一定的,不一定你们现在都是在猜测什么温柔什么什么什么,这是数据分析里边最大的一个忌讳啊,要怎么样,就是要去做的事情来,要去做的事情就是我们拿到了这么多的信息啊,拿到了这么多的信息,这些信息是如何筛选出来的呢?人来筛选出来的啊,人来筛选出来就是它有1亿个信息。那这1亿个信息我们是如何挑的出来,就只有这些个信息去判断他买LV包呢?有没有可能说我们没有挑选出来的,恰恰是他买LV包的一个可能性的,对吧?比如说他爸是马云,他干爹是马云是吧?啊,他干爹是马云,有没有可能,但是我们没有把他放在这个里边,你知道吧,我们没有把他放到这个里边,他有没有可能说还有什么他儿子是马云啊,他也没有可能,他他儿子是马云,那也有可能对吧?那这这都没有算在这里面,所以为什么我们能够通过这种方式来去做呢?啊,为什么我们能够通过这种方式去做呢?那么这种东西就叫做数据分析,你们现在理解什么叫数据分析了吗?是不是有一点感觉呢?对吧?啊有一点感觉,那么有一点感觉的话,我们再来继续说啊,就这个东西叫数据分析,这个东西叫做数据分析的话,我们再来说,刚刚我们有这么多东西,这么多东西都是关于这个。
10:48
一个事物的我们来说,一个事情就是它所有外界我们刚刚说的这个属性都被我们叫做一个词,它叫做维度。什么叫做维度?就是温柔,是关阳平的一个维度。
11:07
尿床的次数一样也是它的一个维度,身高也是它的一个维度,我们说其实它就是一个人的属性,什么颜色,体是不是那个头发是什么颜色啊,头发多长什么,体重是多少,什么被没被狗咬过,什么颜色,这都是这一个人的一个属性,或者说都是这一个人的一个各种各样的不同的维度的信息。三维啊,就是我们大多数都会遇到一个都一个词叫做三维,三维都包括哪三维,问一下啊,那么这个三维,这个三维是因为我们观察事物的时候,大多数以三个侧面去观察它,以哪三个侧面,第一个是长,第二个是宽,第三个是高啊,以这三个维度去观察它,所以这样的话,他就会说这样的一个三个维度,所以我们说一般的世界,我们会认为它是三维。
12:07
因为我们眼睛能够看得到的内容就只有三围,你只能够看得到长,你能够看得到宽,宽你能够看得到高,但是你的眼睛看不到的内容是它有多重,它是谁带过来的,它是由什么组成的,它掩盖在什么之下的颜色值是多少啊?这些你都是不知道。所以我们一般来说看到的这个世界都是三维的,那么由于我们真实的情况,要去描述一个人真实的一个场景的时候,他就不仅仅有三维,他就是N多个维度,那我想问大家,总共你觉得维度有多少,其实是无限的维度的。啊,其实是没有限度的一个维度,比如说我们可以举一个最简单的例子,某一个人,我们单纯去考虑他跟其他人的关系,啊,我们单纯去考虑他跟其他人的关系,那么是不是比如说他有妈,还有妈,这是他最直接的关系,或者他有孩子,直接的三个关系来,第一个就是他妈,他爸,还有他的一个孩子。
13:15
啊,那么这是妈,这是八啊,那么这这说明他是有这他是有这三个东西的,那么跟他间接有关系的是不是他妈的娃,他妈的爸,然后他妈的妈,他妈的爸以及他妈的孩子,他爸他妈和他爸其他的孩子是吧?啊,他妈和他爸其他的孩子,那么再继续续往上延伸,我们是不是可以一直无限延伸呀,那么我们会延伸到一种什么样的程度,会延伸到所有的人都是我们圆心,那么总之就是我们是能够找得到叫做一个共同的一个东西,那么你再去往上,说不准你能够找到,发现说我跟大猩猩也有共同的主线,对吧?再向上找,说不准我们跟某个鸟都有共同的主线,再向上找,说不我们跟某个狗都有共同的主线,但家可能跟狗更近,跟狗跟鸟更远对吧。
14:15
因为狗是属于哺乳动物,鸟是属于这个叫什么禽类,那么再来呢,再往后的话,可能你就还要跟什么,呃,某个细菌都是有共同的祖先是吧?啊,单细胞的细菌,那么单细胞的细菌跟谁有共同的祖先呢?可能就是由于大海的这个作用是吧,大海不断的冲刷让无机物变成了有机物,你可能跟某个有机物还有关系是吧?啊,那么某个有机物都是跟什么无机物有关系,无机物都是跟什么ABC的那个里边什么铁呀,什么碳呀,所以你可能跟我前面这个桌子是有关系的啊啊,因为它是碳,能理解吧?啊,然后那你还可能会跟什么有关系,那可能最小的那个那个东西是不是氢啊,对吧,你可能都是跟氢有关系,因为氢在某种程度下可能会转变成碳啊,那么再往前就是再再往细的分,我也不知道是什么了啊,就是总之这个。
15:15
这接它是连通到一起的,你会有无数个维度啊,你会有无数个维度,那么这些个维度都加到一起,就是我们数据分析想要去处理的内容啊,如果我们来看这些东西都放到一起了啊,都放到一起了,这叫什么?这叫做这是不是一个整体的一个量啊,整体的一个量,那么整体的一个量,最终的那个东西是什么?最的那个东西就是老子所说的一对吧,啊,就是外国人所说的那个叫做上帝啊,上帝啊,就是那个上帝。就是这个一啊,我们中国说的是什么,一生二,二生三,三生万物这个东西对吧,怎么来的呢?就是一,就是我们说的那个道,一能够组成一个极简单的东西,极简单的东西和极简东西,再去组合,再去组合,再去组合,再去组合,再去组合,组合到这儿,组合到你这了,整个这一套啊,我说的这一套就是我们的这个叫做数据分析。
我来说两句