前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬取豆瓣海王评论

爬取豆瓣海王评论

作者头像
周萝卜
发布2019-07-17 15:14:27
4840
发布2019-07-17 15:14:27
举报
文章被收录于专栏:萝卜大杂烩

最近海王大火,今天就来看看豆瓣上对于海王这个大片的评论吧

Just Do It By Yourself

01.分析页面

豆瓣的评论区如下

可以看到这里需要进行翻页处理,通过观察发现,评论的URL如下:

https://movie.douban.com/subject/3878007/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l

每次翻一页,start都会增长20,由此可以写代码如下

使用range函数,步长设置为20,同时通过title等于“没有访问权限”来作为翻页的终点。

02.分别获取评论

豆瓣的评论是分为三个等级的,这里分别获取,方便后面的继续分析

其实可以看到,这里的三段区别主要在请求URL那里,分别对应豆瓣的好评,一般和差评。

最后把得到的数据保存到文件里

03. 做成词云

这里使用jieba来分词,使用wordcloud库制作词云,还是分成三类,同时去掉了一些干扰词,比如“一部”、“一个”、“故事”和一些其他名词,操作都不是很难,直接上代码

04. 效果

好评

一般

差评

感觉爬取豆瓣还是比较简单的,毕竟并没有设置什么反爬手段,小伙伴们也可以一起动手试试

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 萝卜大杂烩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档