我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而,实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫,它有:
基于最新的Java构建和新的functionality
中。
发布于 2012-04-17 20:39:34
我要找的是一个相当简单的爬虫.
你不会发现的,爬虫没什么简单的!有这些特性(特别是最后一个要点)并不简单:
基于最新的Java构建和新技术的多线程functionality
中。
Nutch是一个功能齐全的Java爬虫,可以满足您的大部分需求:http://nutch.apache.org/。
此外,我建议您查看以下问题:https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library
https://stackoverflow.com/questions/10180813
复制相似问题