复仇者联盟3评论的爬取及生成词云

最近复仇者联盟3,比较火,这里爬取了其豆瓣中的评论,然后生成了词云。接下来,将从两部分来阐述本文的内容

一、豆瓣复仇者联盟3评论数据的爬取

1.1 页面结构

首先,让我们来看一下,豆瓣电影的评论页面结构,找到复仇者联盟3的评论页面

从上图 我们可以看出来,评论被div的id为comments包裹,然后下面的每一条评论都是一个div,然后有相应的数据。然后大概的结构是这样,然后我们跳转到下一页,可以看到url如下,

根据上图的url,这边可以猜测到豆瓣电影的评论的url为

1.2、代码的简单分析

二、生成词云

这里将上文获取到的文本,使用jieba库进行分词,然后用scipy.misc导入图片文件,使用wordcloud包生成的词云图,然后用python中的pyplot生成相应的gui

生成的词云图如下

三、关于我

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180519G1N40B00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券