利用python抓取豆瓣电影详情信息

文章来源：企鹅号 - 秒点名

上次猫哥讲到了

利用Python抓取豆瓣电影详细信息

的下半部分，这次猫哥将继续向下讲解，进行更深入的信息抓取。

我们上次已经获取到了所有电影的URL链接。

得到了每个电影的URL之后，我们就可以逐个的进行请求并获取详细电影数据。

从获取的信息我们可以看到，虽然有内容，但是看起来却很乱，接下来我们对提取的内容进行处理。

如果你认为这样就已经结束了的话，那可就想多了。我们要对我们的爬虫进行伪装，要不然刚跑两步就会被人家打断小腿。

1、设置请求头headers

2、设置随机延时0~3秒

3、设置代理IP，测试的话用免费的就可以。

在代码中使用代理IP

4、保存，至于如何保存猫哥在这里就不讲了，网上有很多资料。而猫哥会在Scrapy项目为大家讲解更加简便的存储方式。

本次内容到这里就结束了，下期猫哥将告诉大家如何配置Scrapy框架环境。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货