学习
实践
活动
专区
工具
TVP
写文章

云词图!Python带你遨游3D影评世界

使用chrome浏览器进入某平台电影主页,找到你想要的电影的影评,确定第一页影评的爬虫网址!例如:

https://movie.douban.com/subject/35177274/comments?start=0&limit=20&sstatus=P

其中35177274指该电影的id编号,start=0表示当前是影评开始页面,limit=20,指每页有20条影评

使用requests库获取网页源码

首先导入requests库,通过requests库调用get方法传入url和headers参数即可获取网页源码,url为第一页影评网址,代码如下:

使用BeautifulSoup库提取影评信息并保存数据

获取到网页源码之后,可以提取影评信息,观察网页源码格式,所有的影评在网页源码中的格式是一致的,通过BeautifulSoup库对象soup的find_all对象可以找到所有的影评,提取到影评信息后保存在comment.csv文件中,代码如下:

查看是否有下一页影评

提取到第一页的影评数据后,要继续向后翻页,此时需要检查是否有下一页,若存在下一页,需要继续对该页执行以上重复代码。观察网页源码:

将以上所有代码存于get_comment方法中,调用该方法可得到该电影所有影评数据,并保存在comment.csv文件中。

制作云词图

词云是一种新的可视化展示工具,制作词云,首先要提取出关键词。Python提供了jieba库和wordcloud库,可以完成关键词的抽取和词云生成。

“结巴”分词是一个Python中文分词组件,可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持繁体分词和自定义词典。一般有三种分词方式,其中精确模式分词适合做文本分析。

wordcloud库可以将分词后提取出的关键词用图片表达出来,还可以设置词云图的背景图片,通过词云图,我们可以更加直观的看出某部电影的效果。生成词云的代码如下:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201020A0ABR700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券