“ 最近海王大火,今天就来看看豆瓣上对于海王这个大片的评论吧”
Just Do It By Yourself
01.分析页面
豆瓣的评论区如下
可以看到这里需要进行翻页处理,通过观察发现,评论的URL如下:
https://movie.douban.com/subject/3878007/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l
每次翻一页,start都会增长20,由此可以写代码如下
使用range函数,步长设置为20,同时通过title等于“没有访问权限”来作为翻页的终点。
02.分别获取评论
豆瓣的评论是分为三个等级的,这里分别获取,方便后面的继续分析
其实可以看到,这里的三段区别主要在请求URL那里,分别对应豆瓣的好评,一般和差评。
最后把得到的数据保存到文件里
03. 做成词云
这里使用jieba来分词,使用wordcloud库制作词云,还是分成三类,同时去掉了一些干扰词,比如“一部”、“一个”、“故事”和一些其他名词,操作都不是很难,直接上代码
04. 效果
好评
一般
差评
感觉爬取豆瓣还是比较简单的,毕竟并没有设置什么反爬手段,小伙伴们也可以一起动手试试