开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

Python爬虫教程：多线程爬取电子书

文章来源：企鹅号 - Python凡梦

代码非常简单，有咱们前面的教程做铺垫，很少的代码就可以实现完整的功能了，最后把采集到的内容写到 csv 文件里面，( csv 是啥，你百度一下就知道了) 这段代码是 IO密集操作我们采用 aiohttp 模块编写。

第1步

拼接URL，开启线程。

上面的代码可以同步开启N多个线程，但是这样子很容易造成别人的服务器瘫痪，所以，我们必须要限制一下并发次数，下面的代码，你自己尝试放到指定的位置吧。

第2步

处理抓取到的网页源码，提取我们想要的元素，我新增了一个方法，采用 lxml 进行数据提取。

第3步

数据格式化之后，保存到 csv 文件，收工！

运行代码，查看结果

发表于: 2018-12-262018-12-26 20:50:56
原文链接：https://kuaibao.qq.com/s/20181226A1EZ0T00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯