最近复仇者联盟3,比较火,这里爬取了其豆瓣中的评论,然后生成了词云。接下来,将从两部分来阐述本文的内容
一、豆瓣复仇者联盟3评论数据的爬取
1.1 页面结构
首先,让我们来看一下,豆瓣电影的评论页面结构,找到复仇者联盟3的评论页面
从上图 我们可以看出来,评论被div的id为comments包裹,然后下面的每一条评论都是一个div,然后有相应的数据。然后大概的结构是这样,然后我们跳转到下一页,可以看到url如下,
根据上图的url,这边可以猜测到豆瓣电影的评论的url为
1.2、代码的简单分析
二、生成词云
这里将上文获取到的文本,使用jieba库进行分词,然后用scipy.misc导入图片文件,使用wordcloud包生成的词云图,然后用python中的pyplot生成相应的gui
生成的词云图如下
三、关于我
领取专属 10元无门槛券
私享最新 技术干货