文章/答案/技术大牛

发布

社区首页 >问答首页 >网络爬虫反馈？

问网络爬虫反馈？
EN

Stack Overflow用户

提问于 2010-05-29 18:03:03

回答 3查看 940关注 0票数 2

嘿，伙计们，偶尔我需要自动从网站收集数据。有时我需要一个目录中的一堆URL，有时我需要一个XML站点地图(是的，我知道有很多软件用于这个和在线服务)。

无论如何，作为对我上一个问题的跟进，我写了一个小的网络爬虫，可以访问网站。

基本的爬虫类，方便和快速地与一个网站交互。
重写"doAction(String，String )“以进一步处理内容(例如存储、解析内容)。
概念允许爬虫的多线程.所有类实例共享已处理和排队的链接列表。
可以建立JDBC连接，以将链接存储在数据库中，而不是跟踪对象中已处理的链接和排队链接。
但是，目前一次只限于一个网站，可以通过添加一个externalLinks堆栈并酌情添加到其中来进行扩展。
JCrawler用于快速生成XML或解析网站以获取所需的信息。它很轻。

如果存在上述限制，这是编写爬虫的好方法吗？任何投入都会有很大帮助:)

http://pastebin.com/VtgC4qVE - Main.java

http://pastebin.com/gF4sLHEW - JCrawler.java

http://pastebin.com/VJ1grArt - HTMLUtils.java

java

optimization

web-crawler

feedback

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-05-29 19:38:53

我已经在我的公司写了一个自定义的网络爬虫，我遵循你提到的类似的步骤，我发现它们只是perfect.The -on，我想说的是，它应该有一个轮询频率在一定时间后爬行。

因此，它应该遵循“观察者”的设计模式，这样如果在给定的url上找到任何新的更新，那么它就会更新或写入文件。

票数 2

Stack Overflow用户

发布于 2010-05-29 23:03:07

您的爬虫似乎不尊重robots.txt在任何方面，并使用假的User-Agent字符串来炫耀，就像它是一个网页浏览器。这可能会导致未来的法律纠纷。把这个记下来。

票数 5

Stack Overflow用户

发布于 2010-05-30 08:00:11

我建议将开源JSpider作为爬虫项目的起点，它涵盖了web爬虫的所有主要关注点，包括robots.txt，并且有一个插件方案，您可以使用它将自己的任务应用于它访问的每个页面。

这是对JSpider的一个简短的、略为过时的回顾。这里的页面回顾了其他几个Java应用程序。

http://www.mksearch.mkdoc.org/research/spiders/j-spider/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2936068

复制

相似问题

问网络爬虫反馈？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫反馈？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫反馈？
EN