首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

干货|如何入门 Python 爬虫?爬虫原理及过程详解

另外一个瓶颈——你只有一台机器。不管你的带宽有多大,只要你的机器下载网页的速度是瓶颈的话,那么你只有加快这个速度。用一台机子不够的话——用很多台吧!...当然,我们假设每台机子都已经进了最大的效率——使用多线程(Python的话,多进程吧)。 3)集群化抓取 爬取豆瓣的时候,我总共用了100多台机器昼夜不停地运行了一个月。...想象如果只用一台机子你就得运行100个月了… 那么,假设你现在有100台机器可以用,怎么用Python实现一个分布式的爬取算法呢?...(至少平摊是O(1),Redis的访问效率见:https://redis.io/commands/linsert) 考虑如何用Python实现: 在各台slave上装好scrapy,那么各台机子就变成了一台有抓取能力的...slave,在master上装好Redis和rq用作分布式队列。

83930
领券