问我如何抓取PDF文件，以便它是索引和保存在我的服务器上，使用Nutch？
EN

Stack Overflow用户

提问于 2016-12-09 23:27:06

回答 2查看 265关注 0票数 1

使用Nutch，我如何抓取网站上的PDF，然后将其编入索引？另外，有没有办法在我抓取原始PDF文件后，将它们保存在我的服务器上？

发布于 2017-01-01 07:51:59

如果你有pdf url:，你可以直接用它来获取它。当你获取它时，它会将整个pdf存储在db中。

如果你没有url：一种解决方案是将它们生成为你正在爬行的网站的外链。为此，您需要编写自己的解析器(或扩展当前解析器)，以将pdf保存为外部链接。因此，下次调用updateDb命令时，它们将被保存为数据库中的新行，您可以在下一次爬行中获取它们。

票数 0

发布于 2017-11-30 02:15:48

这些文件都在segments文件夹中，只是没有存储为“普通”pdf文件。要重建数据段中的文件，可以使用以下命令：

bin/nutch dump  -outputDir ./out -segment ./crawldir/segments -flatdir

备注

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41063717

复制

相似问题

问我如何抓取PDF文件，以便它是索引和保存在我的服务器上，使用Nutch？EN