我正在用java编写一个网站爬虫,我想知道运行它最明智的方式是什么?换句话说,我是走标准的web应用程序路线,放入web服务器并使用某种类型的消息队列,还是忘记容器而将其作为独立的java应用程序运行?
这不是一个真正的网络爬虫,因为它只关心x个网站,但我想不断循环通过这些网站(24小时),以确保我有最新的内容。
发布于 2012-01-10 06:45:43
问问你自己,能够通过网络请求访问你的网络爬虫(对你)有什么好处吗?如果不是,就没有理由将其放在web容器中。
...但我想经常浏览这些网站(24小时),以确保我有最新的内容。
我希望你得到网站所有者的同意/许可来这样做。否则,他们可能会采取技术或法律措施来阻止你这样做。
正如丹尼·托马斯所说,爬虫程序应该实现一个"robots.txt“处理程序,并在爬行时遵守这些文件所说的话。
后续
由于我需要访问的网站数量,我可能至少在10-15个小时内不会再次访问同一页面。这是否仍然被普遍认为是过多的爬行?
这不是一个正确的问题。正确的问题是,特定的网站所有者是否会认为这是太多的爬行。
唯一能真正知道的方法就是问他们。
https://stackoverflow.com/questions/8796133
复制相似问题