开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

利用python抓取豆瓣电影详情信息

文章来源：企鹅号 - 秒点名

上次猫哥讲到了

利用Python抓取豆瓣电影详细信息

的下半部分，这次猫哥将继续向下讲解，进行更深入的信息抓取。

我们上次已经获取到了所有电影的URL链接。

得到了每个电影的URL之后，我们就可以逐个的进行请求并获取详细电影数据。

从获取的信息我们可以看到，虽然有内容，但是看起来却很乱，接下来我们对提取的内容进行处理。

如果你认为这样就已经结束了的话，那可就想多了。我们要对我们的爬虫进行伪装，要不然刚跑两步就会被人家打断小腿。

1、设置请求头headers

2、设置随机延时0~3秒

3、设置代理IP，测试的话用免费的就可以。

在代码中使用代理IP

4、保存，至于如何保存猫哥在这里就不讲了，网上有很多资料。而猫哥会在Scrapy项目为大家讲解更加简便的存储方式。

本次内容到这里就结束了，下期猫哥将告诉大家如何配置Scrapy框架环境。

发表于: 2019-01-152019-01-15 09:11:50
原文链接：https://kuaibao.qq.com/s/20190115G0847100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯