文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Web Crawler爬行Web数据

问使用Web Crawler爬行Web数据
EN

Stack Overflow用户

提问于 2011-03-30 14:05:02

回答 2查看 1.4K关注 0票数 1

我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业，项目演示文稿等。我的问题是，我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗？下载它们之后，我想为它们创建一个索引，以便查询文档集。用户可以使用我的应用程序作为搜索引擎。爬虫能做到这点吗？我知道webeater (用Java编写的Crawler )

java

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-03-30 15:48:20

lucene SingleThread.

Parse中的文件下载(你可以从nutch的插件获得).

使用lucene

创建索引

票数 0

Stack Overflow用户

发布于 2011-03-30 16:25:59

如果你想使用真正的网络爬虫，用户http://www.httrack.com/

它为你提供了这么多的选项来复制网站或网页内容，包括flash。它可以在windows和mac上运行。

然后，您可以按照上面的建议执行步骤2和3。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5482497

复制

相似问题

问使用Web Crawler爬行Web数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Web Crawler爬行Web数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Web Crawler爬行Web数据
EN