首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >具有线程支持的python web爬虫

具有线程支持的python web爬虫
EN

Stack Overflow用户
提问于 2009-12-05 01:19:39
回答 3查看 8.9K关注 0票数 2

这些天我做了一些网络爬虫脚本,但其中一个问题是我的互联网非常慢。所以我在想,是否可以通过使用mechanize或urllib之类的方法来实现多线程的网络爬虫。如果任何人有经验,分享信息非常感谢。我在谷歌上找过了,但没有找到多少有用的信息。提前感谢

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2009-12-05 02:06:20

this堆栈溢出线程上有一个很好、很简单的例子。

票数 4
EN

Stack Overflow用户

发布于 2009-12-05 11:10:24

Practical threaded programming with Python值得一读。

票数 3
EN

Stack Overflow用户

发布于 2009-12-05 03:11:54

同时向多个网站发出多个请求肯定会改善你的结果,因为你不必在发送新请求之前等待结果的到来。

然而,线程只是实现这一点的一种方法(我可以补充一句,这是一种糟糕的方法)。不要为此使用线程。只是不要在发送另一个请求之前等待响应!不需要线程来做到这一点。

一个好主意是使用scrapy。它是一个快速的高级屏幕抓取和网络爬行框架,用于抓取网站并从其页面中提取结构化数据。它是用python编写的,可以建立多个并发连接来同时获取数据(不需要使用线程)。它真的很快。您还可以研究它以了解它是如何实现的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1848413

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档