首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何管理爬虫URL边界?

如何管理爬虫URL边界?
EN

Stack Overflow用户
提问于 2015-11-18 12:09:58
回答 3查看 812关注 0票数 0

伙计们

下面的代码将访问的链接添加到我的爬虫上。在提取链接之后,我有一个for循环,该循环遍历每个单独的href标记

当我访问了一个链接,打开它之后,我将把URL添加到上面定义的访问链接集合变量中。

代码语言:javascript
运行
复制
private final Collection<String> urlForntier = Collections.synchronizedSet(new HashSet<String>()); 

爬虫实现是多线程的,假设如果我访问了10万个urls,如果我没有终止这个爬虫,它就会一天比一天长。它会造成内存问题吗?请注意,在不造成线程间不一致的情况下,我要刷新变量的选项是什么?

提前感谢!

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2021-10-11 19:32:41

如果你的爬行器很好,那么管理爬行边界就会变得困难、缓慢和容易出错。

幸运的是,您不需要自己编写它,只需编写您的爬虫来使用URL边界 API并插入适合您的实现。

请参阅https://github.com/crawler-commons/url-frontier

票数 1
EN

Stack Overflow用户

发布于 2015-11-18 12:18:04

现代爬行系统最可用的方法是使用NoSQL数据库。

这个解决方案比HashSet慢得多。这就是为什么您可以利用不同的缓存策略,比如Redis,甚至布卢姆滤波器

但是,包括URL的特定性质,我想推荐特瑞数据结构,它为您提供了许多通过url字符串操作和搜索的选项。(关于java实现的讨论可以在这个Stackoevrflow 主题上找到)

票数 1
EN

Stack Overflow用户

发布于 2015-11-18 12:54:46

  1. 作为一个问题,我建议使用Redis来代替Collection的使用。它是用于数据结构存储的内存数据库,在所有标准数据structures.In (您的案例设置 )的支持下插入和检索数据是非常快的,您可以使用SISMEMBER命令检查set中密钥的存在。
  2. 阿帕奇·纳奇也是很好的探索。
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33779710

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档