开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

使用 Python 爬取简书网的所有文章

文章来源：企鹅号 - 深圳曰

第一时间获取 Python 技术干货！

阅读文本大概需要 6 分钟。

01

抓取目标

我们要爬取的目标是「简书网」。

打开简书网的首页，随手点击一篇文章进入到详情页面。

我们要爬取的数据有：作者、头像、发布时间、文章 ID 以及文章内容。

02

准备工作

在编写爬虫程序之前，我都是先对页面进行简单分析，然后指定爬取思路。

由于我们爬取简书网所有的文章数据，所以考虑使用「CrawlSpider」来对整个网站进行爬取。

首先使用 Scrapy 创建一个项目和一个爬虫

爬取的数据准备存储到 Mysql 数据库中，因此需要提前建立好数据库和表。

03

爬取思路

发表于: 2018-12-052018-12-05 21:30:55
原文链接：https://kuaibao.qq.com/s/20181205G1MP9100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群