首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

豆瓣电影数据分析可视化

前一段时间出于个人兴趣做了个小demo,主要内容是以豆瓣电影上提供的电影数据为例,完整地展示网络数据从获取、处理到分析可视化这一过程。纯当练手,也为感兴趣的小伙伴提供相关的技术介绍。...在豆瓣电影上通过Chrome开发工具找到数据请求API,接下来就可以写代码爬一些电影数据了,我使用的是这两个API: http://movie.douban.com/j/search_tags?...我的主要分析字段是电影数量和平均评分,看它们和电影分类、语言、上映国家、上映时间、时长等其他字段之间有何关联。 数据可视化 俗话说,“一图胜千言”,所以数据分析的结果以可视化网站的形式给出。...我用Flask搭建了一个简单的网站,用Echarts绘制了一些简单的图标来展示分析的结果,可视化网站地址请参见文末。 网站包含三个子菜单:统计、评分、搜索。“统计”展示了和电影数量相关的分析结果。...网络上可以获取的数据不计其数,只要脑洞开得够大,在数据源、分析技术、可视化方法上进一步提升,就一定可以创造出更有意义和价值的成果。

2.8K70

豆瓣电影数据分析

一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于: a.只是针对豆瓣电影数据分析太过宽泛了,具体关键指标到底是哪些呢?...; 3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错; 概述 本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据...c.非洲国家没有出现在图7中,是由于豆瓣电影数据中非洲国家电影数量较少,往往只有1部电影,最多的南非也只贡献了34条数据。...电影票房分析 结合电影票房网(http://58921.com/)采集到的3353条票房数据,与豆瓣数据按照电影名称进行匹配,可以得到1995-2020年在中国大陆上映的电影信息,分别分析中国内地电影的数量...总结 本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论: 豆瓣电影影片时长主要集中在90-120

3.1K30
您找到你想要的搜索结果了吗?
是的
没有找到

数据分享|数据视角可视化分析豆瓣电影评分爬虫数据

p=26988 豆瓣已经成为国内影迷和影评人的聚集地。豆瓣评分已经成为评价中国电影的重要指标。豆瓣积累了大量的电影数据,为电影行业分析提供了重要资源。豆瓣电影被用来衡量国内外电影的发展。...本文对豆瓣电影评分爬虫数据进行可视化分析。 中国与其他国家数量和评分对比 汇总年电影总产量。一直在快速推进的电影产业在2017年出现转折,电影产量开始下滑。与现在相比,相差1500部左右。...总体而言,近年来电影产量有所下降,但评分有所上升。怀疑两者之间存在联系。 电影类型和烂片分析 再来看看拍摄偏好和烂片率。现在烂片越来越多。现在让我们从数据的角度来看。...电影数量分析 统计每个国家的电影数量,选出前4名的观察值: 豆瓣采用打星的方式,所以最低分是一星,也就是两分。 影片数量超过500部,综合评分和数量后,前4名的国家或地区: 在豆瓣,收录在电影里。...本文选自《数据视角可视化分析豆瓣电影评分爬虫数据》。

1.1K20

豆瓣电影评分数据分析

在前面对接口测试的知识体系相对来说写了很多的文章,今晚就结合部分的知识体系,把获取到的知识体系,结合pyecharts来数据进行一个简单的分析。...实现的思路是访问豆瓣最新的电影,然后使用requests库对它进行请求,获取到服务端返回的数据后,依据获取的数据,分别取出电影的名称,电影的评分,然后形成可视化的东西,这样在可视化的界面中,就可以看到最近电影哪些是比较受欢迎的并且它的评分比较高...type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20,然后发送GET请求,就会返回响应数据,在响应数据中获取到电影的名称...movies)) titleRates=[] for rate in rates: titleRates.append(int(float(rate))) bar=Bar('豆瓣电影评分数据分析...') bar.use_theme('dark') bar.add('豆瓣电影',titles,titleRates,is_more_utils=True) bar.render('douban.html

1.2K20

豆瓣电影top250爬虫及可视化分析

实例引入   假设由于工作或者项目要求,我们需要获取豆瓣电影 Top250 的影片数据,进行可视化分析。   ...数据包括 影片名 上映年份 评分 导演 主演 电影类别 上映地区 影片名言 等   原始的数据存放在豆瓣的网页上,像这样。 我们需要将数据采集下来,存放在一张 excel 表里像这样!...首先,我们打开豆瓣电影 TOP250 排行榜,分析我们需要的数据存放在哪里,然后复制粘贴,把我们的数据存放在excel表格里,依次重复如此枯燥乏味的工作对吧。   ...,不妨去喝杯咖啡~ 数据可视化分析 Echarts   关于数据爬取我们就完成了,接下来我们要做的就是可视化分析。   ...可视化分析这块我还没有系统学习,以下内容是借鉴其他博主的。

5.7K31

Python数据可视化豆瓣电影TOP250

豆瓣电影TOP250,对于众多爬虫爱好者,应该并不陌生。 很多人都会以此作为第一个练手的小项目。 当然这也多亏了豆瓣的包容,没有加以太多的反爬措施,对新手比较友好。...本期通过Scrapy框架,对豆瓣电影TOP250信息进行爬取。 同时对获取的数据进行可视化分析,给大家带来一个不一样的TOP250。...这里就贴一个文本文档,后续会在数据可视化里去除Unicode编码。 ? / 02 / 数据可视化 01 电影上映年份分布 ?...在我的那篇「2018年电影分析」中,中国目前可是个电影高产国,结果呢... 香港都比内地的多。这里不得不佩服90,00年代的香港影业,确实很强! 05 电影评分分布 ?...和我之前「2018年电影分析」比较一下,发现榜单里「动作」片减少不少,其他差别不大。 这算不算是间接说明国人更喜欢视觉上的东西呢?

1.7K41

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

在上篇实现了电影详情和短评数据的抓取。到目前为止,已经抓了2000多部电影电视以及20000多的短评数据。   数据本身没有规律和价值,需要通过分析提炼成知识才有意义。...抱着试试玩的想法,准备做一个有关情感分析方面的统计,看看这些评论里面的小伙伴都抱着什么态度来看待自己看过的电影,怀着何种心情写下的短评。   ...获取数据(这里是豆瓣电影短评数据)     2. 数据处理(将短评数据使用分词器分词,并以空格连接分词结果)     3....载入训练模型,分析感兴趣的维度(比如,近义词分词,关联词分析)     Github: https://github.com/NLPchina/Word2VEC_java 获取数据   数据就用短评数据...,2万多条,对应的大概是2000多部的电影,一部电影抓的短评数在10条左右。

1.6K91

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。...动机   采集豆瓣电影数据包括电影详情页数据电影的短评数据。   电影详情页如下图所示   需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。   ...数据库设计   有了如上的需求,需要设计表,其实很简单,只需要一张电影详情表movie和一张电影短评表comments,另外还需要一张存储网页提取的超链接的记录表record。...Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据 Java豆瓣电影爬虫——小爬虫成长记(附源码)   程序爬取控制在豆瓣可接受范围内,不会给豆瓣服务器带来很大的压力,写此程序也是个人把玩...,绝无恶意,万望豆瓣君谅解^_^ 如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!

2.3K90

java抓取豆瓣电影数据分析电影评分,生成统计图表 ---servlet

最近花时间学习了一下使用Java获取网站数据的方法,自己也亲自动手实践一下;共获取3000+数据,去除重复的数据剩余2000+,使用JFreeChart根据电影评分做出几张简单的统计图。...电影评分统计图:     JFreeChart生成图片 ? ? ?     使用jsoup获取该网站的电影数据信息,此网站动态加载数据,如果直接查看网页源代码是看不到数据的。...可以通过js文件,获取相应的数据: ? 部分代码如下: movieServlet.java     主要的功能为:获取网站的电影数据     首先获取每一个电影分类的链接: ?.../** * 获取种类电影信息,保存到数据库 * @param url 某一个种类的链接地址 */ private List getMovieInfo(String url){...String name = e.get("title").getAsString(); //豆瓣评分 float score = e.get("score").getAsFloat(

2.4K40

6万部豆瓣电影数据,如何做数据分析

基于此,特地把以前抓取的豆瓣电影数据拿出来分析一下,重点比较中国电影与其他国家和地区的电影的差异,以为豆瓣评分正名。 2 数据概况 这个数据只抓取到2016年上半年,总计 58127 部电影。...包括id,电影名称,豆瓣评分,评分人数,上映时间,导演,主演,制片国家,影片简介等等信息。按照评分人数从高到低排序,数据库截图如下。 ?...(《小时代》除外) 3 各国电影质量分析 豆瓣评分最低打一星,换算成分数就是2.0分,因此豆瓣电影理论上的最低分不是0分,而是2.0分。...以下,选取了拍片频数比较高的15个国家和地区的数据进行简单的展示和分析。 3.1 美国 总电影数:16773,评分柱状图如下: ? ?...3.15 中国台湾 总电影数:1036,评分柱状图如下: ? ? 4 中国电影质量分析 说了这么多,接下来主要看看中国电影和其他国家、地区电影的比较吧。(没有对比,就没有伤害。)

1.9K80

豆瓣电影api系列

豆瓣电影api 1、获取正在热映的电影: 接口:https://api.douban.com/v2/movie/in_theaters?...apikey=0b2bdeda43b5688921839c8ecb20399b 参数: start : 数据的开始项 count:单页条数 city:城市 如:获取 广州热映电影 第一页 10条数据:...int 数据的开始项 total int 数据总条数 subjects json 数组 电影列表 title string 值为 “正在上映的电影-广州” subjects 是电影列表,是一个 json...apikey=0b2bdeda43b5688921839c8ecb20399b 访问参数: start : 数据的开始项 count:单页条数 如:获取电影Top250 第一页 10条数据: https...apikey=0b2bdeda43b5688921839c8ecb20399b 访问参数: start : 数据的开始项 count:单页条数 如:获取即将上映电影 第一页 10条数据: https:/

2.7K30

数据可视化|Python数据可视化:2018年电影分析

本次利用猫眼电影,实现对2018年的电影数据进行分析。 / 01 / 网页分析 01 标签 通过点击猫眼电影已经归类好的标签,得到网址信息。.../ 05 / 数据可视化 可视化源码就不放了,太多了 公众号回复电影分析源码即可获得。...06 各国家电影数量TOP10 原来中国电影这么高产的,可是豆瓣TOP250里又有多少中国电影呢?深思!!! 07 中外票房对比 2017年的年度票房是560亿,估计今年快要突破了。...09 电影叫座不叫好TOP10 计算公式是,把某部电影的票房排名减去某部电影的评分排名加起来,再除以电影总数。 可能是猫眼的用户比较仁慈吧,与豆瓣相比,普遍评分都比较高。...10 电影类型分布 剧情电影永远引人深思。感觉今年的电影好多跟钱有关,比如「我不是药神」「西虹市首富」「一出好戏」「头号玩家」,贫穷限制了大家伙们。 公众号回复电影分析源码。即可获取全部源码。

2K30

Python数据可视化:2018年电影分析

本次利用猫眼电影,实现对2018年的电影数据进行分析。 ? / 01 / 网页分析 01 标签 ? 通过点击猫眼电影已经归类好的标签,得到网址信息。 02 索引页 ?...打开开发人员工具,获取索引页里电影的链接以及评分信息。 索引页一共有30多页,但是有电影评分的只有10页。 本次只对有电影评分的数据进行获取。 03 详情页 ? 对详情页的信息进行获取。.../ 05 / 数据可视化 可视化源码就不放了,公众号回复电影即可获得。 01 电影票房TOP10 ? 还剩一个多月,不知道榜单上会不会有新成员。最近「毒液」很火,蛮有希望。...06 各国家电影数量TOP10 ? 原来中国电影这么高产的,可是豆瓣TOP250里又有多少中国电影呢?深思!!! 07 中外票房对比 ? 2017年的年度票房是560亿,估计今年快要突破了。...09 电影叫座不叫好TOP10 ? 计算公式是,把某部电影的票房排名减去某部电影的评分排名加起来,再除以电影总数。 可能是猫眼的用户比较仁慈吧,与豆瓣相比,普遍评分都比较高。

89030

简易数据分析 04 | Web Scraper 初尝:抓取豆瓣高分电影

这是简易数据分析系列的第 4 篇文章 今天我们开始数据抓取的第一课,完成我们的第一个爬虫。...但凡做爬虫练手,第一个爬取的网站一般都是豆瓣电影 TOP 250,网址链接是 https://movie.douban.com/top250?start=0&filter=。...第一次上手,我们爬取的内容尽量简单,所以我们只爬取第一页的电影标题。...选完这两个标题后,向下拉动网页,你就会发现所有的电影名字都被选中了: 拉动网页检查一遍,发现所有的电影标题都被选中后,我们就可以点击 Done selecting!...今天我们爬取了豆瓣电影 TOP250 的第 1 页数据(也就是排名最高的 25 部电影),下一篇我们讲讲,如何抓取所有的电影名。

91740

爬取豆瓣电影信息

昨天写了一个小爬虫,爬取了豆瓣上2017年中国大陆的电影信息,网址为豆瓣选影视,爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接,并保存到MongoDB中。...一开始用的本机的IP地址,没用代理IP,请求了十几个网页之后就收不到数据了,报HTTP错误302,然后用浏览器打开网页试了一下,发现浏览器也是302。。。 ? 但是我不怕,我有代理IP,哈哈哈!...使用代理IP之后果然可以持续收到数据了,但中间还是有302错误,没事,用另一个代理IP请求重新请求一次就好了,一次不行再来一次,再来一次不行那就再再来一次,再再不行,那。。。 ?...else: yield item 2.items.py文件 import scrapy class DoubanItem(scrapy.Item): #电影名称...ROBOTSTXT_OBEY = False DOWNLOAD_TIMEOUT = 10 RETRY_ENABLED = True RETRY_TIMES = 10 程序共运行1小时20分21.473772秒,抓取到2986条数据

1.2K20
领券