足球粉丝福利来啦-图解欧洲足球五大联赛

前言:

R爬虫&可视化系列文章来到了第五季,我们来聊聊欧洲足球五大联赛。本人作为一个不会踢球的资深球迷,俗称“懂球帝”,今天就与大家用数据分析一下2017-2018赛季欧洲五大联赛的各项指标。

数据爬取:

本次数据爬取我们选择的是虎扑网站,虎扑网站作为大型的体育类资讯网站,可以作为足球类数据的来源。爬取分为两部分,球员资料和比赛统计,比较好的一点是虎扑网站上的数据是以表格形式进行存储,如下图所示:

上图中由于虎扑球队信息更新不是特别及时,我们会在后期把这部分数据和比赛数据做inner join。循环爬取表格的方法基本上是相似的,下面只展示其中一场比赛的数据爬取,球员基本信息爬取与其类似:

i=10854899 ##网站比赛编号,作为循环因子即可url <- sprintf('https://g.hupu.com/soccer/data_%d.html',i)temp <- getURL(url,.encoding='utf-8')doc <-htmlParse(temp)players <- readHTMLTable(doc)home <- players$table_home_players_statsaway <- players$table_away_players_stats## 判断数据是否爬取,home_row,away_row均大于1说明数据成功爬取home_row <- nrow(home)away_row <- nrow(away)

数据分析:

PART1:五大联赛比赛数据对比

首先我们通过几个维度对比五大联赛比赛的特点,在pc端我们使用subplot将四幅对比图放在一起,使得对比更加直观:

通过以上指标我们发现英超的球队平均每场犯规次数远低于其他四大联赛,黄牌数量也较少,这与英超宽松的吹罚尺度有着密切的联系。西甲的越位和黄牌数量在五大联赛中均处于领先位置,严格的吹罚尺度更加有利于技术流的发展。

法甲的整体射门转化率在五大联赛中处于最低位置,一方面是由于一些神级门将的发挥(上届世界杯有着神级发挥的奥乔亚就曾在法甲让大巴黎37脚射门仅进1球),另一方面想必法甲也培养了一批的“吐饼王”。

部分代码如下:

## 球队平均每场犯规数绘制,其他图同理p1 <- ggplot(league_stat,aes(x=联赛,y=平均每队犯规,fill=联赛))+    geom_boxplot()+    scale_color_few()+theme_economist()+ggtitle('球队平均每场犯规数')+    theme(axis.title = element_blank(),          plot.title = element_text(hjust=0.5,size=17),          axis.text.x = element_text(size = 15),          legend.position = 'NONE')  ## 设置subplot的行、列数grid.newpage()pushViewport(viewport(layout=grid.layout(2,2)))vplayout<-function(x,y){viewport(layout.pos.row =x,layout.pos.col=y)}## 将ggplot放置在subplot中print(p1,vp=vplayout(1,1))print(p2,vp=vplayout(1,2))print(p3,vp=vplayout(2,1))print(p4,vp=vplayout(2,2))

PART2:球员对比

我们首先挑选四项重要指标,进球效率,助攻效率,被犯规频率和扑救成功率的TOP20。其中被犯规频率需要考虑到联赛整体的吹罚尺度,所以计算时会乘以联赛的吹罚系数。下面战死四项指标的组合图:

进球效率TOP5:卡瓦尼,法尔考,伊卡尔迪,因莫比莱,迪巴拉

助攻效率TOP5:格德斯,夸德拉多,皮亚尼奇,博格巴,达胡德

被犯规速率TOP5:内马尔,巴恩斯,桑切斯,埃尔南德斯,萨尔

扑救成功率TOP5:奥布拉克,波普,特尔施特根,德赫亚,纳瓦斯

内马尔在对手眼中是个极大的威胁,帮助他最常被侵犯排行榜TOP1,希望内少保重身体,明年世界杯就要来了。格德斯和奥布拉克分列助攻和扑球榜榜首,想必已经引起各大豪门的注意。

之前被诟病的卡瓦尼此次荣登进球效率榜首尾有些出人意料,看来大家的直觉和数据本身有时会有偏差。

另外一个大家很关心的问题就是谁拥有球队绝对开火权,我们选取了射门数量占全队百分比的TOP20,并且对比其射门转化率:

梅西、凯恩、C罗、巴洛特利、哲科分列前五位,可见其在球队的地位,巴神在TOP5中射门转化率最高,看来近期状态不错。C罗可能是把进球的感觉都留在了杯赛中,联赛射门转化率不甚理想。

汤姆因斯和卡罗尔两位的射门转化率均为0,这并不是数据缺失,而是这两位确实没有进球,下半赛季两位都需要做出改变。

这部分代码涉及到了melt函数,如下所示:

ord <- order(player_stat$射门占比,decreasing = TRUE)player_stat_shemen <- player_stat[ord,][1:20,]player_stat_shemen <- melt(player_stat_shemen,id=c('球员名','射门占比'),measure=c('射门占比','射门转化率'))

PART3:联赛球员属性对比

我们最后看一下各大联赛球员的属性,重点是对比年龄和国籍分布情况,首先我们看一下五大联赛整体的对比情况:

五大联赛中英超外籍球员出场占比,上场球员平均年龄两项指标均高于其他几大联赛。对此本公众号推测足协正是看到了“欧洲中国队”联赛的现状,所以制定出了“标新立异“的u23和外援新政。

最后我们用地图的视角看一下五大联赛的球员国籍分布:

以西甲静态图为例,颜色深浅表示不同国籍的球员出场总时长情况:

下面是五大联赛的动态GIF图表,由于公众号图片上传大小的限制,所以可能看的不是特别清晰,每次图片的切换代表不同联赛之间的切换:

该部分重要代码如下:

p <- echartr(huizong,x=英文名,y=总时间,type='map_world',    t=联赛,subtype="move + scale")%>%    setDataRange(valueRange=c(0,20000))

动态图中可以看到,各大联赛的球员国籍分布还是存在些许的差异,在此就不进行详细的展开说明。关于五大联赛的分析暂时就到这里,后续大家关于这方面有更多分析的点可以留言进行交流

---------------------------------

如果大家周围有对数据分析&数据挖掘感兴趣的朋友,麻烦在朋友圈帮忙转发一下,让更多的朋友加入我们。有好的文章也可以联系我与大家分享,如果有问题或者建议,可以直接在公众号或者文章下方留言。

本文分享自微信公众号 - 萝卜大杂烩(zhouluoboluandun)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏图南科技

系统服务化构建-数据解读通用模型

元数据是用来描述业务的最小单位,任何涉及数据统计及处理的业务的都是从元数据收集开始的。元数据既可以是从其他数据源抽取同步而来,也可以从业务终端收集而来。

8750
来自专栏边缘计算

推动边缘计算的七项核心技术

年前施巍松教授和其团队(张星洲、王一帆、张庆阳)应《计算机研究与发展》编辑部之邀,庆刊60周年发表论文,边缘计算社区经过和施巍松教授沟通,将论文整理成几篇,方便...

16920
来自专栏liu_ll的生信学习笔记

R语言----PCA分析,热图(楔子)

在转录组的分析当中,主成分分析(PCA)往往是成果体现的一个很重要的手段。 在《R语言做主成分分析实例》里的降解非常的好--网址 :https://sheng...

24120
来自专栏边缘计算

史上最全的边缘计算应用场景

本文整理了已经基于边缘计算模型设计的6个成功典型应用,通过这些应用来发现边缘计算的研究机遇和挑战,并探讨更多的应用场景。

25630
来自专栏边缘计算

边缘计算方兴未艾

边缘计算 (Edge computing) 是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供服务。其应用程序在边缘侧发...

13220
来自专栏机器之心

做数据只知道Excel?Jupyter Notebook也要学起来了

如果你是一名交易员或者从事金融服务行业,那么 Excel 就是你的生计之本。有了它,你可以分析价格和实时数据、评估交易组合、计算 VaR、执行回测等等;有了它,...

31620
来自专栏日常撸知识

【精益生产】六西格玛管理的统计学理解

摩托罗拉公司为了改善产品质量,在1987年提出了六西格玛质量管理方法,以及后来的种种故事,这里不扯那些犊子,讲讲基于统计学上对这种质量管理方法的理解,因为六西格...

13050
来自专栏AI科技大本营的专栏

一文掌握异常检测的实用方法 | 技术实践

【导读】今天这篇文章会向大家介绍几个有关机器学习和统计分析的技术和应用,并展示如何使用这些方法解决一些具体的异常检测和状态监控实例。相信对一些开发者们来说可以提...

15320
来自专栏CDA数据分析师

收藏 | 10个可以快速用Python进行数据分析的小技巧

一些小提示和小技巧可能是非常有用的,特别是在编程领域。有时候使用一点点黑客技术,既可以节省时间,还可能挽救“生命”。

11850
来自专栏liu_ll的生信学习笔记

热图,PCA画图网站推荐--------- ClustVis

  在生信的分析学习过程中,对结果的可视化是非常重要的,在很多生信文章常见的就是热图,PCA等图。    但是在画图之前,我们需要知道,我们这么做的目的是什么...

25050

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励