我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统,许多学生在这里上传他们的作业,项目演示文稿等。我的问题是,我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗?下载它们之后,我想为它们创建一个索引,以便查询文档集。用户可以使用我的应用程序作为搜索引擎。爬虫能做到这点吗?我知道webeater (用Java编写的Crawler )
发布于 2011-03-30 15:48:20
lucene SingleThread.
创建索引
发布于 2011-03-30 16:25:59
如果你想使用真正的网络爬虫,用户http://www.httrack.com/
它为你提供了这么多的选项来复制网站或网页内容,包括flash。它可以在windows和mac上运行。
然后,您可以按照上面的建议执行步骤2和3。
https://stackoverflow.com/questions/5482497
复制相似问题