利用python抓取豆瓣电影详情信息

上次猫哥讲到了

利用Python抓取豆瓣电影详细信息

的下半部分,这次猫哥将继续向下讲解,进行更深入的信息抓取。

我们上次已经获取到了所有电影的URL链接。

得到了每个电影的URL之后,我们就可以逐个的进行请求并获取详细电影数据。

从获取的信息我们可以看到,虽然有内容,但是看起来却很乱,接下来我们对提取的内容进行处理。

如果你认为这样就已经结束了的话,那可就想多了。我们要对我们的爬虫进行伪装,要不然刚跑两步就会被人家打断小腿。

1、设置请求头headers

2、设置随机延时0~3秒

3、设置代理IP,测试的话用免费的就可以。

在代码中使用代理IP

4、保存,至于如何保存猫哥在这里就不讲了,网上有很多资料。而猫哥会在Scrapy项目为大家讲解更加简便的存储方式。

本次内容到这里就结束了,下期猫哥将告诉大家如何配置Scrapy框架环境。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190115G0847100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券