我已经设置了一个Import.io批量提取,可以很好地处理50个URL。它几乎可以在几秒钟内快速浏览所有这些内容。然而,当我尝试提取40,000个URL时,对于前1000个URL,提取器启动得非常快,然后逐渐变慢,每增加一个URL。到了5000年,每个URL大概需要4-5秒。
一种似乎有效的解决方案是将它们一次分解为1000个URL的块,并对每个URL进行单独的批量提取。但是,这非常耗时,并且需要在最后拼接回所有数据。
有没有人经历过这种情况,如果有,他们有没有更优雅的解决方案?
谢谢,迈克
发布于 2015-07-15 18:06:43
一个稍微不那么优雅的解决方案是创建一个爬虫。在你运行它之前,在"where to start crawling“框中插入10kURL。
在“高级选项”下,将爬网深度设置为零,这样您将只获得放入“开始爬网的位置”输入框中的页面。
这应该能起到作用。另外,爬虫还有一堆其他的选项,比如在页面之间等待和并发页面等等。
发布于 2015-08-26 06:54:55
迈克,你介意再试一次吗?我们已经完成了批量提取,现在它在开始时应该会稍微慢一点,但更恒定
可能40k仍然太多,在这种情况下,您可以尝试拆分,但我确实在一次运行中运行了5k+
让我知道它进行得怎么样!
https://stackoverflow.com/questions/31396712
复制相似问题