首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我如何抓取PDF文件,以便它是索引和保存在我的服务器上,使用Nutch?

我如何抓取PDF文件,以便它是索引和保存在我的服务器上,使用Nutch?
EN

Stack Overflow用户
提问于 2016-12-09 23:27:06
回答 2查看 265关注 0票数 1

使用Nutch,我如何抓取网站上的PDF,然后将其编入索引?另外,有没有办法在我抓取原始PDF文件后,将它们保存在我的服务器上?

EN

回答 2

Stack Overflow用户

发布于 2017-01-01 07:51:59

如果你有pdf url:,你可以直接用它来获取它。当你获取它时,它会将整个pdf存储在db中。

如果你没有url:一种解决方案是将它们生成为你正在爬行的网站的外链。为此,您需要编写自己的解析器(或扩展当前解析器),以将pdf保存为外部链接。因此,下次调用updateDb命令时,它们将被保存为数据库中的新行,您可以在下一次爬行中获取它们。

票数 0
EN

Stack Overflow用户

发布于 2017-11-30 02:15:48

这些文件都在segments文件夹中,只是没有存储为“普通”pdf文件。要重建数据段中的文件,可以使用以下命令:

代码语言:javascript
运行
复制
bin/nutch dump  -outputDir ./out -segment ./crawldir/segments -flatdir

备注

  1. 如果您在命令行中键入bin/nutch dump,则可以看到参数及其说明的完整列表。
  2. 上述命令输出的文件的前缀字母数字序列是站点url的md5哈希。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41063717

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档