故事是这样的,在知乎上有一个问题叫做:
有哪些质量很高的冷门电影?
有3万多的关注者,181万的浏览量。
今天主要想记录下数据分析的过程。(数据采集并不困难,难的是数据清洗)
既然拿到数据了,那肯定需要来做分析了。
使用造数把豆瓣大神分享的电影数据都拿下来,它长这样。
第一列是电影名,有中文和外文,我要把它分离。
起初我是想使用“分列”,但是发现不行,英文中也含有空格,去搜索“Excel提取中文”,找到一种最简单的方法
OK,第一个问题解决
第二列是评分,还需要转化为数字格式,不是难事。
第三列评价数,替换一下就好了。
第四列就是最头疼的了,竟然是这种格式
搜索怎样才能去除换行符,然后再百度里找到这个
按照这种方法,消除了换行符,下面头疼的就是怎样分列
直接使用数据中的分列是不行的,分隔符号和固定宽度都不可行,
最终想到了一种办法,复制空白长度,将长度替换成符号,再用符号分列。
OK,大功告成,接下来就很简单了,直接放做好的图。
其中出现3次及3次以上的导演有 格斯·范·桑特、拉斯·霍尔斯道姆、理查德·林克莱特、尼尔·乔丹。
出现3次及3次以上的演员有: 罗伯特·德尼罗、约翰尼·德普、比尔·默瑞、罗宾·威廉姆斯 、斯嘉丽·约翰逊、布拉德·皮特、金·凯瑞、伊桑·霍克。
最喜欢的类型有:剧情、爱情、喜剧。
排在前面的国家有:美国、英国、法国、日本、德国。
顺便说一句,终于可以带上原创了,