开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

python：Requests＋正则爬取网页数据

文章来源：企鹅号 - 嗨学Python

1.分析网页确定思路

打算爬取猫眼电影的 top 100 的电影信息，我们首先可以访问一下我们需要爬取的网站，看一下我们需要的信息所处的位置和结构如何

看完以后我们的思路应该就比较清晰了，我们首先使用 requests 库请求单页内容，然后我们使用正则对我们需要的信息进行匹配，然后将我们需要的每一条信息保存成一个JSON 字符串，并将其存入文件当中，然后就是开启循环遍历十页的内容或者采用 Python 多线程的方式提高爬取速度

2.代码实现

spider.py

3.运行效果

发表于: 2019-05-142019-05-14 20:56:15
原文链接：https://kuaibao.qq.com/s/20190514A0N4AW00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群