强大的异步爬虫 with aiohttp

文章来源：企鹅号 - DataCastle

是谁的小眼睛还没有看老师这里？

你们最爱的小歪老师最近又有了一个大大大发现，说起爬虫，现在网络上大多讲的是requests、scarpy，却没有说起过这样一个神器：aiohttp。

究竟它是什么呢？

官网上是这样介绍的：Async HTTP client/server for asyncio and Python，翻译过来就是asyncio和Python的异步HTTP客户端/服务器。

它的主要特点是酱紫的：

1.支持客户端和HTTP服务器；

2.无需使用Callback Hell即可支持Server WebSockets和Client WebSockets；

3.Web服务器具有中间件，信号和可插拔路由。

话不多说，看老师操作！！！

aiohttp与requests

去翻一下官方文档Client Quickstart，会让人感觉特别熟悉，很多用法和requests相似。

首先，官方推荐使用ClientSession来管理会话，这不就是requests中的session吗？用法也类似，使用session.get()去发送get请求，返回的resp中就有我们所需要的数据了，用法也和requests一样，text()文本，.json()直接打印返回的json数据，headers什么的也一样，更多内容参考官方文档Response object。

既然已经有了requests了，那为什么还要说aiohttp了？重点来了，aiohttp是异步的。在python3.5中，加入了asyncio/await关键字，使得回调的写法更加直观和人性化。而aiohttp是一个提供异步web服务的库，asyncio可以实现单线程并发IO操作。

requests写爬虫是同步的，是等待网页下载好才会执行下面的解析、入库操作，如果在下载网页时间太长会导致阻塞，使用multiprocessing或者threading加速爬虫也是一种方法。

我们现在使用的aiohttp是异步的，简单来说，就是不需要等待，你尽管去下载网页就好了，我不用傻傻的等待你完成才进行下一步，我还有别的活要干。这样就极大的提高了下载网页的效率。

另外，Scrapy也是异步的，是基于Twisted事件驱动的。在任何情况下，都不要写阻塞的代码。阻塞的代码包括：

1.访问文件、数据库或者Web；

2.产生新的进程并需要处理新进程的输出，如运行shell命令；

3.执行系统层次操作的代码，如等待系统队列。

代码示例

需要注意的是，你需要时刻在你的代码中使用异步操作，你如果在代码中使用同步操作，爬虫并不会报错，但是速度可能会受影响。

其他异步库

因为爬虫不仅仅只有下载这块，还会有操作数据库，这里提供两个异步库：aioredis、motor

文档：aioredis

文档：motor

嗯……本文仅仅介绍了aiohttp作为Client的用法，有兴趣的同学可以去研究下作为Server的用法，同样很强大。

发表于: 2018-06-122018-06-12 17:52:57
原文链接：https://kuaibao.qq.com/s/20180612A1FN0Q00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

强大的异步爬虫 with aiohttp

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐