文章/答案/技术大牛

发布

社区首页 >问答首页 >当列表中的URL较多时，Import.io大容量提取速度会变慢

问当列表中的URL较多时，Import.io大容量提取速度会变慢
EN

Stack Overflow用户

提问于 2015-07-14 10:36:50

回答 2查看 153关注 0票数 4

我已经设置了一个Import.io批量提取，可以很好地处理50个URL。它几乎可以在几秒钟内快速浏览所有这些内容。然而，当我尝试提取40,000个URL时，对于前1000个URL，提取器启动得非常快，然后逐渐变慢，每增加一个URL。到了5000年，每个URL大概需要4-5秒。

一种似乎有效的解决方案是将它们一次分解为1000个URL的块，并对每个URL进行单独的批量提取。但是，这非常耗时，并且需要在最后拼接回所有数据。

有没有人经历过这种情况，如果有，他们有没有更优雅的解决方案？

谢谢，迈克

python

import.io

回答 2

Stack Overflow用户

发布于 2015-07-15 18:06:43

一个稍微不那么优雅的解决方案是创建一个爬虫。在你运行它之前，在"where to start crawling“框中插入10kURL。

在“高级选项”下，将爬网深度设置为零，这样您将只获得放入“开始爬网的位置”输入框中的页面。

这应该能起到作用。另外，爬虫还有一堆其他的选项，比如在页面之间等待和并发页面等等。

票数 4

Stack Overflow用户

发布于 2015-08-26 06:54:55

迈克，你介意再试一次吗？我们已经完成了批量提取，现在它在开始时应该会稍微慢一点，但更恒定

可能40k仍然太多，在这种情况下，您可以尝试拆分，但我确实在一次运行中运行了5k+

让我知道它进行得怎么样！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31396712

复制

相似问题

问当列表中的URL较多时，Import.io大容量提取速度会变慢
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当列表中的URL较多时，Import.io大容量提取速度会变慢EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当列表中的URL较多时，Import.io大容量提取速度会变慢
EN