使用Nutch,我如何抓取网站上的PDF,然后将其编入索引?另外,有没有办法在我抓取原始PDF文件后,将它们保存在我的服务器上?
发布于 2017-01-01 07:51:59
如果你有pdf url:,你可以直接用它来获取它。当你获取它时,它会将整个pdf存储在db中。
如果你没有url:一种解决方案是将它们生成为你正在爬行的网站的外链。为此,您需要编写自己的解析器(或扩展当前解析器),以将pdf保存为外部链接。因此,下次调用updateDb命令时,它们将被保存为数据库中的新行,您可以在下一次爬行中获取它们。
发布于 2017-11-30 02:15:48
这些文件都在segments
文件夹中,只是没有存储为“普通”pdf文件。要重建数据段中的文件,可以使用以下命令:
bin/nutch dump -outputDir ./out -segment ./crawldir/segments -flatdir
备注
bin/nutch dump
,则可以看到参数及其说明的完整列表。md5
哈希。https://stackoverflow.com/questions/41063717
复制相似问题