首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Web Crawler爬行Web数据

使用Web Crawler爬行Web数据
EN

Stack Overflow用户
提问于 2011-03-30 14:05:02
回答 2查看 1.4K关注 0票数 1

我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统,许多学生在这里上传他们的作业,项目演示文稿等。我的问题是,我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗?下载它们之后,我想为它们创建一个索引,以便查询文档集。用户可以使用我的应用程序作为搜索引擎。爬虫能做到这点吗?我知道webeater (用Java编写的Crawler )

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-03-30 15:48:20

lucene SingleThread.

  • Parse中的文件下载(你可以从nutch的插件获得).
  1. 使用lucene

创建索引

票数 0
EN

Stack Overflow用户

发布于 2011-03-30 16:25:59

如果你想使用真正的网络爬虫,用户http://www.httrack.com/

它为你提供了这么多的选项来复制网站或网页内容,包括flash。它可以在windows和mac上运行。

然后,您可以按照上面的建议执行步骤2和3。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5482497

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档