文章/答案/技术大牛

发布

社区首页 >问答首页 >运行网站爬虫

问运行网站爬虫
EN

Stack Overflow用户

提问于 2012-01-10 06:33:59

回答 1查看 277关注 0票数 0

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？换句话说，我是走标准的web应用程序路线，放入web服务器并使用某种类型的消息队列，还是忘记容器而将其作为独立的java应用程序运行？

这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

java

web-crawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-01-10 06:45:43

问问你自己，能够通过网络请求访问你的网络爬虫(对你)有什么好处吗？如果不是，就没有理由将其放在web容器中。

...但我想经常浏览这些网站(24小时)，以确保我有最新的内容。

我希望你得到网站所有者的同意/许可来这样做。否则，他们可能会采取技术或法律措施来阻止你这样做。

正如丹尼·托马斯所说，爬虫程序应该实现一个"robots.txt“处理程序，并在爬行时遵守这些文件所说的话。

后续

由于我需要访问的网站数量，我可能至少在10-15个小时内不会再次访问同一页面。这是否仍然被普遍认为是过多的爬行？

这不是一个正确的问题。正确的问题是，特定的网站所有者是否会认为这是太多的爬行。

他们花了多少钱？他们需要做额外的工作来处理你爬行造成的负载吗？他们是否需要增加容量？这会增加他们的运营成本吗？(网络收费，你对他们的内容做了一些可能会减少他们收入的事情；例如，减少他们网站上的实际点击量，他们从你的爬行中获得的广告click-throughs?
What收益的数量？
是你在为公共利益做什么？(或者这只是你从他们的内容中赚钱的一种方式？)

唯一能真正知道的方法就是问他们。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8796133

复制

相似问题

问运行网站爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问运行网站爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问运行网站爬虫
EN