首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >运行网站爬虫

运行网站爬虫
EN

Stack Overflow用户
提问于 2012-01-10 06:33:59
回答 1查看 277关注 0票数 0

我正在用java编写一个网站爬虫,我想知道运行它最明智的方式是什么?换句话说,我是走标准的web应用程序路线,放入web服务器并使用某种类型的消息队列,还是忘记容器而将其作为独立的java应用程序运行?

这不是一个真正的网络爬虫,因为它只关心x个网站,但我想不断循环通过这些网站(24小时),以确保我有最新的内容。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-01-10 06:45:43

问问你自己,能够通过网络请求访问你的网络爬虫(对你)有什么好处吗?如果不是,就没有理由将其放在web容器中。

...但我想经常浏览这些网站(24小时),以确保我有最新的内容。

我希望你得到网站所有者的同意/许可来这样做。否则,他们可能会采取技术或法律措施来阻止你这样做。

正如丹尼·托马斯所说,爬虫程序应该实现一个"robots.txt“处理程序,并在爬行时遵守这些文件所说的话。

后续

由于我需要访问的网站数量,我可能至少在10-15个小时内不会再次访问同一页面。这是否仍然被普遍认为是过多的爬行?

这不是一个正确的问题。正确的问题是,特定的网站所有者是否会认为这是太多的爬行。

  • 他们花了多少钱?他们需要做额外的工作来处理你爬行造成的负载吗?他们是否需要增加容量?这会增加他们的运营成本吗?(网络收费,你对他们的内容做了一些可能会减少他们收入的事情;例如,减少他们网站上的实际点击量,他们从你的爬行中获得的广告click-throughs?
  • What收益的数量?
  • 是你在为公共利益做什么?(或者这只是你从他们的内容中赚钱的一种方式?)

唯一能真正知道的方法就是问他们。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8796133

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档