00:00
非常小的例子,就是给大家去看一眼,这个例子应该是在我的文件夹下面有啊,叫做数据分析报告啊,有两个,诶,这上面这个是吗?足球分析报告啊,足球分析报告实际上我用了一个比较小的,相当于说比较小的数据集啊,就大概也就是呃一个呃一个表里边呢,可以看啊,就是在这个联赛数据表,我就只用了这一个叫做match infer的这一个表,它大概有六兆的大小啊,我只用了这一个表做分析,那么用这一个表做分析的话,我来给大家看一下,最终我大概写了一个东西啊,写出来的东西,这个啊,写了一个东西啊,这是照着别人去写的啊,来往下看,就第一个就是你要知道你的目的是什么,那我的这个写作的目的肯定就是为了去了解一下足球到底是什么样的东西,什么东西会跟足球的这个进球有关,是吧,就是去做这个,可能将来比如说我要去赌球的话,我得去看一下,呃,如果这个球队的数。
01:00
据比较好的话,我就去投这个球队是吧,然后呢,就是数据的来源,就是球探网啊,球探网的数据,我们是不是盘的也是球探网对吧?啊,然后数据的分析方法就是把这些个特征啊,这15个特征,我刚刚说的这个叫做维度,对不对啊,我刚刚说的叫做维度,然后同时我也说过这个东西叫做属性,那么你还有另一种办法叫做特征啊,这东西你可以叫它,它叫做特征,那这一个特征包括什么?来我去找特征啊,主队特队啊,主客场,第二个就是队伍的名字,第三个是比赛的时间,第四个是球员的号码,第五个是球员的名称,第六个是球员的位置,然后我这是每个球员一条数据啊,然后是比赛的铲球的数量,比赛的抢断的数量,比赛的犯规的数量,比赛的助攻的数量,比赛的射门的数量,比赛的红牌数量,比赛的黄牌数量,比赛的进球数量,这些东西我是认为说他可能跟我们球员的这个进球是有关。
02:00
关系的,比如说球员的号码跟他有没有关系啊,这个球员是十号,所以他牛逼啊,不知道啊,就是按照我们想应该是没有关系,但是有没有关系真的不知道,那么跟位置有没有关系,跟位置可能是有关系的,但是我们这么想,可能前锋进的多,但是我们说哎,可能是跟他有关系,那么比如说跟什么比赛的铲球数量有没有关系,跟比赛的抢断的数量有没有关系,跟比赛的犯规的数量有没有关系,跟比赛的助攻的数量有没有关系等等,这些都是我们要去分析的,那么分析是怎么分析?来,我们来往下看啊,第一个就是我去找了一下这些个球队里边哪个球队是呃进球数最多的啊,注意我上面这个表是不是对于每一个球员来说的呀。那么下面我是说哪个球队进球最多,如果用circleq语序,你要怎么办?用group by对不对?Group by球队,然后看一下所有的人的进球是什什么样子的,对吧?第一个就是我去做了一个表,那么这个表里面就是有曼城,它总共进了191个球,利物浦啊,这是这个是二零,忘了二零几几年的数据,我没有描述清楚啊,忘了二零几几年的了,然后利物浦是172个,然后一直到这个巴黎圣日耳曼还是117个,那么这个东西是我们的其中一个表,那么至于描述,后续我给大家去会去说我这个描述描述的都是什么?来,我先跟大家说,这个东西叫做直方图啊,后续我们会讲到这个直方图是什么,我们来看一下这个直方图,对于我们这个直方图来说,这一部分是一个图,这是这一部分是一种东西,这是一种东西,这一种呢,对吧,它是有一个图像的,那么总体上来说,它我们是不是能看出它是大概是这个样子的呀,对吧,总体上是这个样子什么意思,就是我们球队的总的进球的一个。
03:50
分布是零到23啊,我也不忘了是多少,零到23,可能他进球的就是这个,这种球队是最多的,越高球队就越少,但是中间会有一段空白,那么这就是这种图像的一个一个内容,那么往下还会有啊,比如说这个场均的进球数和场均的射门数是不是有关系,你们看这个图像,你觉得他们俩有关系吗?这是场均的进球数,这是场的射门数,是不是能够看得出来,它其实是有一定的关系的呀,对吧?就是说场均的射门数它实际上是这样子往下走的,只不过它会有波动嘛,那么场均的进球数它也是大概是这样往下走的,所以就是我们画图就要画这个东西,这样把这种图给他画出来,叭,如说各种各样的关系,那这个关系吗?场均的抢断数和场均的进球数,我觉得他就是如果是我来描述的话,它就没有什么关系啊,是这样的,从这到这。
04:50
我认为它没有关系,因为它这相当于是平稳的,对吧,那这是下降的,那么从这到这儿,它是感觉是有一个下降的感觉,但是不知道,那么这块可能也有,但是你注意有一个事情啊,就是每当我们的这块有一个监刺,比如说这个监刺就代表着它是不是进球多呀,场均进球多的时候来,你把它从这儿往上去做延长线,发现它是不是跟这是结合到一起的,但是你看这这比较多的时候,你看它的这个是不是跟这是一致的呀,对吧,也就是说这儿代表的是说他场均的抢断数多,他场均的这个进球数就多,但是这儿就并不并不符合,这就是我们最终要去输出报告的时候,你会画出图来,画出图来你要去描述这个图,我刚才说的这个过程就有描述这个图的意思,对吧,我们要去描述这个图啊,描述这个图就是怎么去描述啊,啊下面这个还有啊,啊这个东西叫做抢抢均射门数与场抢均的抢断数,你看它。
05:50
你也有有关系吧,我觉得到后面这一块还是算有关系的,因为你看这个黑色往上,这个绿色也往上,这个黑色往下,这个绿色也往下,对吧?它的这种变化趋势就很相似,但是这一块好像又没那么相似,对吧?抢断和射门数有关系吗?可能有关系,但是我们通过图来发现,前面这些个这些个队,就是说进球量比较高的这些个队,它的关系并不是很大,但是进球量比较少的这些个队,它的关系就挺大,这是我自己做的分析,这是我做的分析,至于你们怎么描述,你们说我就认为前面后面都有关系,OK,你就写前面后面都有关系,只不过别人可能会给你一个评价,只人数据思维不怎么样是吧,有可能大家也有可能会评价我这个人数据思维不怎么样,这个都看不出来关系是吧?啊有没有关系呢?这东西都靠自己看啊来看,这个叫做场均进球数和黄牌数,我发现黄牌数应该没什么关系吧,对吧,黄牌数很平稳,场均进。
06:50
平数,它是往下有一个下降趋势,这个叫什么场均犯规数,还有犯规数,你感觉也没什么关系啊,也没什么关系,不知道这个关系在哪,就是你不知道说他就是这个是他场均的一个进球数,那他跟这个犯规有关系吗?看不出来,如果看不出来,你可能又觉得有点关系,那叫什么没有明显的关系好来那么这种你看像这种场均助攻数跟场均进球数它就有关系是吧,而且关系是很大的,像这个底下是红牌,跟红牌好像就没什么关系,就等等这些个,这些个这个分析啊,这些个分析这个是什么呢?这个是说每个球员的一个进球数啊,每个球员的进球数来我们来看,那就是大多数的球员其实都分布在这啊,有少量的球员分布在这儿,有一个人在这儿,大家猜猜他是谁,而且就这个这个人是说他进了60个球,在这个赛季里边梅西一场,所以就是大多数的人是不是都都在这儿。
07:50
啊,就是如果你不做这种数据分析,你可能就分析不出来,大多数的球员都是一个都是在都是踢进几个球,那么你有了这个之后,你就能够发现它大概应该就是也是呈这样的一个趋势的,当然我们这里面很多都是这种趋势,那么也呃,其实这个自然界里面实现最多趋势的就是这个东西啊,这个东西后面后续我会给大家讲说为什么它会呈现这样的一个趋势,在我们的概率里面有一个东西叫做中心极限定理,不知道你们听过没有啊,中心极限定理啊,这个后续我给大家讲到啊来,那么再往下的话,来这儿这个东西是什么呢?这个东西是说我们的进球数来看,这边是进球数,我来重来一下啊,这边是进球数,这边是射门数对吧,我进球数和射门数有什么样的关系,是不是大概能够看得出来,这是一个点,就是就是每个人的进球数和每个人的射门数,那么如果说这个点他在这么分布的话,是不是大概会能够有一条线说它是往上这么样递增的呀。
08:50
就是射门数越多,它相应的进球数也就越多,这是它的关系,那么这种关系还会产生另一个东西,叫做说来看这条线,这条红线,这条红线用的办法叫做线性回归,那么这条线是线性回归的话是什么意思啊?这条线就相当于是一个叫做平均水平,在这条线之上的人就说明他的射门成功率高,在这条线下面就说明他的射门成功率低,低于平均水平和高于水平,平均水平对吧?那这条线,这条线它是一条线,那么一条线就能够写成一种形式,叫做Y等于MX加Y等于MX加BX就是射门数,Y就是进球数,那么M是多少,B是多少啊?我没告诉你,我应该告诉你了,我这里面应该有写啊,看一下大家这个东西就是M就是它的斜率,这个东西就是它的那个B叫做偏移啊,偏移量,或者叫做Y轴的截距啊,这东西是偏。
09:50
样,所以就是YY是什么?Y就是我们的这个进球数,射门数就是X,然后就是这个乘以X减去这个值,这就是它们俩之间的关系,所以如果有一个人射门射了100次,我问你他大概能够记多少个球,100乘以它就相当于是18对吧?约等于18,然后减去这个值啊,先减去它,然后再去约等于的话,应该就是约等于17对吧?啊,你先乘完之后,它乘以100是17.99减去0.845等于0.485等于17.551几对吧?啊,17.51几,那四舍五入它大概能进18个球或者17.5个球对吧?那么这是这就是我们这个线性回归的一个作用啊,当然我刚才说这个东西去预测,在我们数据分析里边,一般来说都是都是分析预测比较少,那么如果要学预测的话。
10:48
请移步数据挖掘和机器学习啊,啊那个东西讲的很多都是预测分类以及7788的东西,好那么这个就是我们说它会符合一个这个线性关系,然后最后这个主队和客队的进球了,我给大家我问大家一个问题,你们觉得主队哎,这是不是有点太小了,你们觉得主队和客队对胜球有影响吗?对进球有影响吗?有为什么啊,主队事情是都是猜测对吧?来我跟大家说,我这有数据的分析对吧?哈,对于这个比赛来说,主队的进球量是,如果他在组队啊,他的进球量是4000多啊4000多,那么客队的话大概是3000啊,不到3500,那么这种如果你就以这种形式来说,他的进球是受主客队影响的,他的一个叫。
11:48
说概率是多少啊,这虽然有这种,但是在客观上不一定就存在着这种现象,这只是我们取到的一个样本,对吗?那么真实的这种情况,它符合样本的这种情况的是一个什么样子,它的概率是多少?换句话说,举个例子,就是一个药片,他给就是他选取了十个人给,这十个人吃,发现九个人都能够治好某种病,那样问你这个药有没有效,不一定有效,你只能够说这个效有多大的概率它是有效的啊,有多大的概率是有效的,一般认为说如果这个概率小于5%,我们就会认为它的这个结论是错的,他这样这样说吧,就是我们认为说这个药没有效果,那么没有效果的话,如果没有效果的概率大小到了5%以下,一般我们就认为它有效果,如果这个没有效果的。
12:48
概率大于了5%,我们就会认为它没效果啊,我们就认为它不可信啊,不一定是没效果啊,我们就认为它不可信啊,你需要把这个概率降到5%以下啊,有有这样的关系,所以我们这里边你也不能说他就是主队和客队对进球就是有影响,不一定,那么它有影响是什么?有影响的是一个概率,那么这个概率如何去量化,就是我们这个概率论要去讨论的问题,所以为什么要学数学呢?就是因为这个你再去分析它的时候,你怎么去知道他有多少的概率,主队和客队能够影响他的进球,对吧?所以这东西就是学习这个概率论的一个特别重要的地方,其实呃,怎么说呢,我们真实的这个世界里边,用到概率论的地方是特别特别多的,数学里边概率论在我看来是内容最多,也是特别特别重要的,所以大家有机会都可以都可以去学习一下概率论到底是什么。
13:48
总体好,我们就说到这儿,那么大概也就是总结啊,那么后面最后就是总结了,我们上面经过了一堆的分析来总结,总结什么呢?就是进球数量最多的五个队伍,叫做曼城,利物浦,拜仁慕尼黑,巴塞罗那和皇家马德里,进球总数分布有四个阶段啊,就是这个每个队伍就是这个队伍,它的进球分布是有四个阶段的,那么这四个阶段实际上是从高到低的,我们说它是不是这样子的一个呀,诶,画错了,我们说它应该是这个样子的吧。
14:22
那么就是进球少的队伍是最多的,然后进球,随着进球越多,队伍的数量就要越少,它有这样的一个分布,那么这种分布我们说它总共有四个阶段,然后是进球的射门数与场均进球数是有相关性的,你注意啊,我这里边全有全部说的都是相关性,因为我不知道因果关系,他进球跟什么有关,不知道,这东西都不一定啊,但是球门的这个就射门数的波动比较大,进球数的波动比较小等等等等,这些都是我们的一个一个一个一个这个总结,那么后续大概写成了一个报告的样子,就是这个样子,就是这个样子,由于我只用了一呃,就是一个数据啊,我大概写了多少页,我看一下我这个,我这个字比较大啊,正常你们写的时候可能会写的页数比较少一点,我这个字比较大,写多少页啊,大概就是11页,那么后续我们去做的时候,第一个字可能会比我这个小,因为我这个需要看,所以我把字就给它放大了,然后第二个呢,就是呃,我们。
15:22
大概写议就是十页20页这样,如果你能够写到几百页的话,那么就是大概类似于这种报告,我给大家看一下啊,如果是几百页的话,大概是大概应该就是这种报告是吧,这种报告我看到是几百页啊,不知道啊,186页啊,但是它的字要小,发现没它字比我的小很多,所以就是如果它到我那种字的话,大概是这几百页啊,我们也可以看一下它的整个结构啊,我们也可以看一下它的整个结构,第一个是摘要,第二个是目录,因为我那个写的比较小,也不做发表,就没写摘要,那么目录,然后导论,然后下面是文献综述,这个文献综述跟大家说是什么意思啊,就是他要研究的是叫做生殖健康,对吧?啊,生殖健康它主要的目标是要研究生殖健康,我们来看一下是不是啊,看它的题目,性与生殖健康对吧?性与殖健康,所以它主要的目标就是要研究性与生殖的性,性与生殖健康,所以他第一步这写论文的第一步就是你要去确定什叫做性,什么叫做。
16:22
生殖健康它会是解释什么叫做性,什么叫做生殖健康,然后解释完了之后,这里边肯定是引用引用名人名言是吧,然后这里边的话,这个这个性与生殖健康的研究现状,就是别人都是怎么研究的,他们有什么,他们有什么缺点,所以我们要把这个东西补充上来,OK吧,就是来再说一遍啊,定义是什么,别人怎么做的,别人做的有什么问题,我要解决这个问题啊,这就是第一部分,第二部,哎,你们是不是也有要去写这个这个毕业报告的,对吧?啊,这东西跟那个就说什么毕业设计的报告是很相近的,那么再往下就是按部分去分析,比如说第一个它有数据来源啊,中意数据来源是很重要的,你必须要告诉别人数据来源是什么,然后第一个就是这个与信息需求相关,是你看他说叫中国年轻人与生殖信息需求分析,就是他认为与这个信息需求是有关的吧,这个就是叫什么,呃,信息。
17:22
需求有关,就是生殖健康啊,性与生殖健康是与信息需求有关的,那么再分几个步骤,然后下面就是这个,呃,性少数什么,呃,不对,这个是在上面是一样的啊,这是第一部分,我们来看第二部分,第二部分在哪呢?怎么直接就五了呢?不对,这是五,不对,这是第二部分。第二部分就是知乎上,他觉得这个我们做分析的话,知乎可能会是一个比较好的用处啊,知乎上谈论这个性的话题,跟这个东西有什么样的关系,再往后的话就是第三部分叫做舆情事件,什么叫做舆情事件,比如说陈小武骚扰事件,北大,呃,北大沈阳性侵,高岩舆情事件,什么汤兰兰事件,什么红黄兰事件,什么产妇跳楼事件啊,然后第四部分就是涉及到性的这个案件是什么样子,他是不是去找这种维度呀,他他其实就是去找这种维度,然后还有就是这个侮辱猥亵和侮辱,然后最后就是这是第几部分,这是诶这是我这不是啊是第。
18:22
部分第五部分是性与生殖健康的对策和建议,这个东西应该就是结论了吧,然后他去这个发出结论,做出自己的结论,然后就结束了,所以其实总共就是这个样子的去做的,只不过我那个比较小,它这个比较大而已,不过我那个比较小,它这个就是内容会比较多一些,他也是去找各种各样的维度去做分析,我们随便拿一个叫做简单的维度,叫做强奸案数量时接变化趋势啊,我们来点开这个,它强奸案随着这个数据变化的趋势,我们能够发现是不是这个地方是最高点呀,对吧,就是2017年10月,然后还有吗?2016年10月,2016年就是2017年1月嘛,反正是对,你就看哪个是高点,哪个是低点,怎样怎样怎样怎样啊,就是他就是把图像画出来,然后底下去做一个分析,你来看他他的分析啊,他的分析叫做这个参盘,这个判决书是2014年开始启用的,所以2014年的。
19:22
六月你会发现有一个陡然升高,其实不是,是因为他才从从这儿开始,然后一直到这儿,到2017年年底结案,然后到哪儿去,这个呃叫做什么,到哪有上升,到哪有下降,他会做这样的一个分析,那么他会说是不是跟年底突击结案的现象有关,然后占全年的百分之多少,然后尤其是最后一个月怎样怎样怎样,就是你就会发现它是不是有一堆对他的描述呀,就是一个图,一个描述,再往下又一个图啊,浙江省啊,浙江杭州,浙江杭州什么什么雨墨啊,翟雨墨啊,再在这一百六十一起案件里面,那么他也会有图,也会有这种,这种也会有图啊,哪块比较严重,疾病也很严重啊,那么再往下就是他对这个图的一个分析。
我来说两句