首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从数据角度探究《前任3》为什么这么火爆

采集豆瓣影评

流程如下:

创建一个Scrapy项目;

定义提取的Item;

编写爬取网站的 spider 并提取 Item;

编写 Item Pipeline 来存储提取到的Item(即数据)。

提取数据库数据,处理展示

创建项目,终端输入

项目结构(不包括后续配置)

scrapy中cookies的写法,可以与request中cookie的写法对比下

这里我用了两种方法解决这个问题,第一个是加cookie,效果不太理想,我换了第二种采用登录的方式。

由于在登录过程中可能需要输入验证码,目前采用把验证码图片保存至本地手动输入

(借助一些打码平台可以实现自动识别验证码输入,收费)

词云和分布图展示

本来是想用至尊宝做一个词云图的,找了好久没找到素材,就用了之前我的一张壁纸

话说,词云图好像并不能看出什么~而分布图表达的结果也并不直观,那就代表本次的结果没有什么卵用,个人觉得是因为数据量太小了,而且词云图本身对数据展示的结果只能看出高频词而已...

时光无法回头,人生也不能重来,珍惜眼前人。

千万不要得到的时候在毁,失去的时候在悔!

作者:_知几

源自:https://ask.hellobi.com/blog/zhiji/11170

声明:文章著作权归作者所有,如有侵权,请联系小编删除

Github地址:https://github.com/ReainL/douban_qrs

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180118A0GK0X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券