首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一次数据可视化的过程【Excel】

一次数据可视化的过程【Excel】

作者头像
小歪
发布2018-04-04 14:45:11
9770
发布2018-04-04 14:45:11
举报

故事是这样的,在知乎上有一个问题叫做:

有哪些质量很高的冷门电影?

有3万多的关注者,181万的浏览量。

今天主要想记录下数据分析的过程。(数据采集并不困难,难的是数据清洗)

既然拿到数据了,那肯定需要来做分析了。

使用造数把豆瓣大神分享的电影数据都拿下来,它长这样。

第一列是电影名,有中文和外文,我要把它分离。

起初我是想使用“分列”,但是发现不行,英文中也含有空格,去搜索“Excel提取中文”,找到一种最简单的方法

OK,第一个问题解决

第二列是评分,还需要转化为数字格式,不是难事。

第三列评价数,替换一下就好了。

第四列就是最头疼的了,竟然是这种格式

搜索怎样才能去除换行符,然后再百度里找到这个

按照这种方法,消除了换行符,下面头疼的就是怎样分列

直接使用数据中的分列是不行的,分隔符号和固定宽度都不可行,

最终想到了一种办法,复制空白长度,将长度替换成符号,再用符号分列。

OK,大功告成,接下来就很简单了,直接放做好的图。

其中出现3次及3次以上的导演有 格斯·范·桑特、拉斯·霍尔斯道姆、理查德·林克莱特、尼尔·乔丹。

出现3次及3次以上的演员有: 罗伯特·德尼罗、约翰尼·德普、比尔·默瑞、罗宾·威廉姆斯 、斯嘉丽·约翰逊、布拉德·皮特、金·凯瑞、伊桑·霍克。

最喜欢的类型有:剧情、爱情、喜剧。

排在前面的国家有:美国、英国、法国、日本、德国。

顺便说一句,终于可以带上原创了,

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与算法进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档