Python WordCloud对电视剧<>短评生成词云

要说最近大火的影视剧当中无疑是这其中之一吧,我也一直在追剧中...由于这阶段正好赶上在学习selenium来操作浏览器爬取数据,所以就爬取了豆瓣中对的短评内容并生成了词云。

下面简短的介绍一下这次生成词云的环境以及使用的库:

1.Python 3.6.1

2.selenium 3.7.0 这是一个可以操作浏览器的库,模拟真实人的操作(包括点击按钮等操作),还可以抓取动态页面(js生成的页面)

3.wordcloud 1.3.2 生成词云的模块

4.jieba 0.39 很好的中文分词库,功能强大并使用简单,由于wordcloud对于分词是弱势,所以借助jieba来进行分词

生成词云的流程:

1.使用selenium抓取短评(前十页短评),并将每一条短评存到.txt文件中(其实第一步应该进行登录操作的,但是限于公司网络原因又或者是豆瓣服务器原因,导致我这边获取二维码的接口调不通,所以这里我就不登录,直接获取十页的数据(不登陆只能获取十页的数据),但是下边我也会附上使用selenium登录的代码)

2.使用jieba对爬取下来的短评进行分词,将分词存入新的文本

3.使用wordcloud对分词生成词云(由于我这里只爬取了十页的短评,所以进行分词得到的词比较少,这里我就没有对分此后得到的数据进行生成词云,而是直接对十页的短评生成的词云,这样生成的词云效果比较好)

下边就附上代码,要好好的手敲代码,所以这里直接附图:

最后附上生成的词云:

这篇博客只是熟悉和使用selenium进行抓取数据,简书有相应的文章更新。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171213G03SL000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券