文章/答案/技术大牛

发布

社区首页 >问答首页 >如何管理爬虫URL边界？

问如何管理爬虫URL边界？
EN

Stack Overflow用户

提问于 2015-11-18 12:09:58

回答 3查看 812关注 0票数 0

伙计们

下面的代码将访问的链接添加到我的爬虫上。在提取链接之后，我有一个for循环，该循环遍历每个单独的href标记。

当我访问了一个链接，打开它之后，我将把URL添加到上面定义的访问链接集合变量中。

private final Collection<String> urlForntier = Collections.synchronizedSet(new HashSet<String>());

爬虫实现是多线程的，假设如果我访问了10万个urls，如果我没有终止这个爬虫，它就会一天比一天长。它会造成内存问题吗？请注意，在不造成线程间不一致的情况下，我要刷新变量的选项是什么？

提前感谢！

web-crawler

forkjoinpool

java

multithreading

回答 3

Stack Overflow用户

回答已采纳

发布于 2021-10-11 19:32:41

如果你的爬行器很好，那么管理爬行边界就会变得困难、缓慢和容易出错。

幸运的是，您不需要自己编写它，只需编写您的爬虫来使用URL边界 API并插入适合您的实现。

请参阅https://github.com/crawler-commons/url-frontier

票数 1

Stack Overflow用户

发布于 2015-11-18 12:18:04

现代爬行系统最可用的方法是使用NoSQL数据库。

这个解决方案比HashSet慢得多。这就是为什么您可以利用不同的缓存策略，比如Redis，甚至布卢姆滤波器的

但是，包括URL的特定性质，我想推荐特瑞数据结构，它为您提供了许多通过url字符串操作和搜索的选项。(关于java实现的讨论可以在这个Stackoevrflow 主题上找到)

票数 1

Stack Overflow用户

发布于 2015-11-18 12:54:46

作为一个问题，我建议使用Redis来代替Collection的使用。它是用于数据结构存储的内存数据库，在所有标准数据structures.In (您的案例设置 )的支持下插入和检索数据是非常快的，您可以使用SISMEMBER命令检查set中密钥的存在。
阿帕奇·纳奇也是很好的探索。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33779710

复制

相似问题

问如何管理爬虫URL边界？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何管理爬虫URL边界？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何管理爬虫URL边界？
EN