是否有任何其他爬虫具有我提到的所有特性,或者有任何方法使用上述任何一个爬虫满足我的需求?
有帮助的答案将不胜感激。
发布于 2014-10-11 07:21:17
看起来是Norconex HTTP收集器的完美匹配
它是由Norconex,一个企业搜索专业人员的公司维护的。问题迅速得到解决。版本2.0.0正在大量工作,很快就带来了许多新特性(语言检测、文档拆分等)。
这是GPL,但Norconex提供了一个商业许可,如果GPL是一个问题。
它还有许多你没有列出的其他功能,比如在将文档内容发送到搜索引擎之前操纵它的能力。它还支持站点地图、机器人规则等。我请您尝试一下:http://www.norconex.com/product/collector-http/
https://stackoverflow.com/questions/25973854
复制相似问题