这些天我做了一些网络爬虫脚本,但其中一个问题是我的互联网非常慢。所以我在想,是否可以通过使用mechanize或urllib之类的方法来实现多线程的网络爬虫。如果任何人有经验,分享信息非常感谢。我在谷歌上找过了,但没有找到多少有用的信息。提前感谢
发布于 2009-12-05 02:06:20
在this堆栈溢出线程上有一个很好、很简单的例子。
发布于 2009-12-05 11:10:24
Practical threaded programming with Python值得一读。
发布于 2009-12-05 03:11:54
同时向多个网站发出多个请求肯定会改善你的结果,因为你不必在发送新请求之前等待结果的到来。
然而,线程只是实现这一点的一种方法(我可以补充一句,这是一种糟糕的方法)。不要为此使用线程。只是不要在发送另一个请求之前等待响应!不需要线程来做到这一点。
一个好主意是使用scrapy。它是一个快速的高级屏幕抓取和网络爬行框架,用于抓取网站并从其页面中提取结构化数据。它是用python编写的,可以建立多个并发连接来同时获取数据(不需要使用线程)。它真的很快。您还可以研究它以了解它是如何实现的。
https://stackoverflow.com/questions/1848413
复制相似问题