文章/答案/技术大牛

发布

社区首页 >问答首页 >具有线程支持的python web爬虫

问具有线程支持的python web爬虫
EN

Stack Overflow用户

提问于 2009-12-05 01:19:39

回答 3查看 8.9K关注 0票数 2

这些天我做了一些网络爬虫脚本，但其中一个问题是我的互联网非常慢。所以我在想，是否可以通过使用mechanize或urllib之类的方法来实现多线程的网络爬虫。如果任何人有经验，分享信息非常感谢。我在谷歌上找过了，但没有找到多少有用的信息。提前感谢

python

multithreading

回答 3

Stack Overflow用户

回答已采纳

发布于 2009-12-05 02:06:20

在this堆栈溢出线程上有一个很好、很简单的例子。

票数 4

Stack Overflow用户

发布于 2009-12-05 11:10:24

Practical threaded programming with Python值得一读。

票数 3

Stack Overflow用户

发布于 2009-12-05 03:11:54

同时向多个网站发出多个请求肯定会改善你的结果，因为你不必在发送新请求之前等待结果的到来。

然而，线程只是实现这一点的一种方法(我可以补充一句，这是一种糟糕的方法)。不要为此使用线程。只是不要在发送另一个请求之前等待响应！不需要线程来做到这一点。

一个好主意是使用scrapy。它是一个快速的高级屏幕抓取和网络爬行框架，用于抓取网站并从其页面中提取结构化数据。它是用python编写的，可以建立多个并发连接来同时获取数据(不需要使用线程)。它真的很快。您还可以研究它以了解它是如何实现的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1848413

复制

相似问题

问具有线程支持的python web爬虫
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有线程支持的python web爬虫EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有线程支持的python web爬虫
EN