Python数据分析系列(1)——品味葡萄酒

作者:王大伟

Python爱好者社区唯一小编

博客:https://ask.hellobi.com/blog/wangdawei

前言

数据分析学习了挺久,pandas也用了比较多,自从上次写了篇

之后就没写过数据分析相关的了

之前那篇主要偏向数据清洗(因为数据是自己爬的,所以不太规整)

这次突出一下数据探索和可视化

之前一直听问某某某参加了kaggle大数据竞赛之类

我就去kaggle上瞄了一眼

打开了新世界的大门!

kaggle上有世界各国网友提供的数据集

https://www.kaggle.com/datasets

我这次选了个葡萄酒评分的数据

下载下来之后

内容是这样的

一共有150929条记录

数据集的描述是这样的:

在观看Somm(侍酒师纪录片)之后,数据及提供者想知道如何创建一个预测模型,通过像侍酒师那样的盲品来鉴别葡萄酒。 第一步是收集一些数据来训练一个模型。 他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。 该模型虽然不能品尝葡萄酒,但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。

小编百度了一下Somm的影片信息如下:

我们看看各字段含义:

评分(Points):评分为1-100

品种(Variety):用来制作葡萄酒的葡萄品种

描述(Description):侍酒师的几句话描述酒的味道,气味,外观,感觉等。

国家(Country):葡萄酒来自的国家

省(Province):葡萄酒来自的省份或州

区域1(Region 1):一个省或州的葡萄酒产区

区域2(Region 2):有时在葡萄酒产区内有更具体的区域,但是这个值有时可能是空白的

酒庄(Winery):酿酒的酿酒厂

名称(Designation):葡萄酒酿造厂所在的葡萄园

价格(Price):一瓶葡萄酒的价格

数据探索

我们使用pandas读取这个文件:

我们查看一下前五行数据:

删除掉本次分析用不到的字段后再次看看情况:

看一下每个字段的类型:

发现评分和价格是数值型的,我们计算时候就不用转换类型了~

我们看一下各字段的数据缺失情况:

本想把有缺失值的记录去掉,去掉后发现只有US的葡萄酒信息,所以没去除存在缺失值的记录

葡萄酒的评分情况

我们通过绘制直方图查看评分分布情况:

发现基本符合高斯分布情况,评分大多集中在85~90分

葡萄酒的价格情况

接着我们看看葡萄酒的价格情况:

发现价格集中在图示的最左端,因为有特殊离群值的影响,所以区间给的特别宽

通过筛选发现确实是有特别昂贵的葡萄酒(这里暂且不管这个价格数据是采集异常还是真的这么贵)

为了可视化到主要的部分,我们选中大部分的价格重新做可视化

这样就可以看到,大部分的价格是在0-100(好像数据集提供者没告诉我价格的单位)

为了买到满意的葡萄酒,我们看看葡萄酒的性价比

简单定义为 性价比 = 评分/价格

结果发现计算出的价格低的明显性价比高

我们看看总体上葡萄酒价格和评分的关系:

发现评分相同的葡萄酒,价格还是差异挺大,特别是评分较高的葡萄酒价格的差异

从图中也可以看出,有几个离群值,他们大多价格很高!

葡萄酒基本来自哪些国家

我们看到,生产葡萄酒的五个大国是吗,美国、意大利、发过、西班牙、智利共和国。

为了更直观凸显他们的比例,我们绘制饼图:

发现美国真是占据了葡萄酒的半壁江山啊

应该是这个数据收集者没收集到中国的数据,我们也是葡萄酒大国之一啊!

看看这些国家在全球的分布(点的大小代表葡萄酒品种多):

除去美国最多,我们看看其次的几个:

(以上两个图是用Tableau画的)

酿造葡萄酒的葡萄品种

我这个不懂酒的程序猿马上查了一下前三的葡萄!

为了看一下这些葡萄使用的比重,做个饼图:

发现前三种占据了1/4

后面还有使用较少的名称堆叠在了一起

酒庄信息

我们接下来看看酒庄信息:

前五的葡萄酒品种最多

分别是:

1.威廉斯莱酒庄

来源:

2.特斯坦罗萨酒厂

3.DFJ Vinhos

来源:http://cache.baiducontent.com/c?m=9d78d513d99515f74fede53a564a8d3b584381132ba7a7020ed0843e967328355321a3e52878564291d27d141cb20c19afe736056f5e7bebdd9bc9118efec97478c93034074ddb1e0f8245b29d127d857bcc00b4ee0ee7cdb268d1&p=9c769a47ca9a02ff57efcd3159&newp=8457c54ad48b0be00be296264a53d8304a02c70e3ac3864e1290c408d23f061d4862e5b125251003d3c6776705a44a56e9f6307123454df6cc8a871d81edda6260&user=baidu&fm=sc&query=DFJ+Vinhos%BE%C6%D7%AF&qid=d5be9796000028be&p1=2

4.圣密夕酒庄

来源:http://www.wine-world.com/winery/chateau-ste-michelle-winery

5.哥伦比亚山峰酒庄

看看哪个酒庄的葡萄酒均价最高:

1.巴布莱尔酒庄

苏格兰最古老的酒庄之一,巴布莱尔酒庄是全球唯一专注生产单一年份威士忌(Single Vintage Whisky)的酒庄。

2.拉图城堡酒庄

享有“全球最昂贵的酒庄”声誉,是当之无愧的法国国宝级酒庄。

3.花思蝶酒庄

700年的历史,意大利托斯卡纳最古老的葡萄酒世家之一,曾成为罗马教皇和英王亨利八世的御用佳酿。

4.奥比昂酒庄

法国五大酒庄之一

5.美讯庄园

地处法国波尔多(Bordeaux)格拉夫(Graves)产区的最北端,与奥比昂酒庄(Chateau Haut-Brion)同属于克兰斯帝龙酒业集团(Domaine Clarence Dillon)旗下酒庄,两个酒庄之间仅有一路之隔。美讯酒庄出产的葡萄酒是整个波尔多地区首屈一指的顶级佳酿。

我们看看这五个酒庄的葡萄酒平均价格变化趋势:

前两个的价格遥遥领先~

买不起,买不起!

本文来自企鹅号 - Python爱好者社区媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Data Analysis & Viz

乱炖“简书交友”数据之代码(2)

继续更新出来本系列的代码:乱炖数据之2700余篇“简书交友”专题文章数据的花式玩法

1113
来自专栏木子昭的博客

《进击的虫师》爬取豆瓣电影海报(Top250)

有人想学一点编程, 但是一直没有找到感兴趣的切入点,可以简单的爬虫入手! 几十行代码, 轻松爬取豆瓣Top250电影数据,即刻体会编程的乐趣... ? ...

5964
来自专栏专知

【干货】台大李宏毅两个小时带你纵览自然语言处理和语音内容机器理解,附全程视频PPT下载

【导读】李宏毅11月25日在Dosudo硅谷工程师读书会上两个办小时的演讲。 在这次演讲中李宏毅老师以语音机器理解为例纵览自然语言处理各种最新技术。李宏毅老师演...

1.3K5
来自专栏新智元

从“London”出发,8步搞定自然语言处理(Python代码)

【新智元导读】自然语言处理是AI的一个子领域,从人们日常沟通所用的非结构化文本信息中提取结构化数据,以便计算机理解。本文用通俗易懂的语言深入浅出的介绍了自然语言...

782
来自专栏Albert陈凯

算法与数据结构algorithm

算法与数据结构 《Data structures》 介绍:高级数据结构大全,基本算法:二叉树等 《基于用户投票的排名算法(一):Delicious和Hacker...

3435
来自专栏大数据文摘

“微笑传递”背后的数据分析

1384
来自专栏PPV课数据科学社区

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

? 写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。 ———————————–作者说明——...

34310
来自专栏量子位

这份NLP研究进展汇总请收好,GitHub连续3天最火的都是它

1333
来自专栏灯塔大数据

分析 |《狄仁杰之四大天王》影评分析(爬虫+词云+热力图)

作为徐老怪的忠实影迷,《狄仁杰之四大天王》肯定是要去看的,看豆瓣评分和前两部相差不多,但其实作者本人并不是很喜欢前两部,所以在犹豫要不要去看,于是简单去分析了一...

1172
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(152)-生产物流-生产线物流规划

企业的运营过程中,物流、资金流和信息流贯穿始终,三位一体,不可分割。物流是最基本的活动,相对于信息流和资金流,物流规划的科学性对企业的整体效益有着决定性的影响。...

2786

扫码关注云+社区

领取腾讯云代金券