首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫教程:多线程爬取电子书

代码非常简单,有咱们前面的教程做铺垫,很少的代码就可以实现完整的功能了,最后把采集到的内容写到 csv 文件里面,( csv 是啥,你百度一下就知道了) 这段代码是 IO密集操作 我们采用 aiohttp 模块编写。

第1步

拼接URL,开启线程。

上面的代码可以同步开启N多个线程,但是这样子很容易造成别人的服务器瘫痪,所以,我们必须要限制一下并发次数,下面的代码,你自己尝试放到指定的位置吧。

第2步

处理抓取到的网页源码,提取我们想要的元素,我新增了一个方法,采用 lxml 进行数据提取。

第3步

数据格式化之后,保存到 csv 文件,收工!

运行代码,查看结果

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181226A1EZ0T00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券