问apache Nutch中有没有插件可以同时索引原始内容中的webHtml和pdf
EN

Stack Overflow用户

提问于 2018-04-23 15:31:03

回答 1查看 102关注 0票数 0

在apache Nutch中有没有任何插件可以用原始的content.Such来索引webHtml和pdfs，这样格式化就不会丢失。另外，我们可以使用nutch抓取html文件中的内部pdf链接吗？

发布于 2018-04-23 18:44:53

对于PDF，没有什么是开箱即用的。Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件(例如，使用PDFBox )，并尝试提取有关文档的格式化信息。

请记住，PDF文件的原始内容没有多大意义。也许你可以试着把你的PDF转换成HTML/XML，然后试着理解它的结构。也许像：http://pdfx.cs.man.ac.uk/example这样的库对您来说是有意义的。不做一些实验是不可能知道的。

关于“内部链接”，您是指同一文档中的链接，还是指向PDF内容中其他文档/网页的链接？如果您指的是PDF中的内部链接，根据库的不同，您可能会这样做。

请记住，PDF不是一种易于处理的格式。Tika/PDFBox项目在简化这项任务方面做出了令人惊叹的工作，即使投入了所有的时间和精力，也有一些edge文件是“有问题的”。只是一个小小的警告。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49975600

复制

相似问题

问apache Nutch中有没有插件可以同时索引原始内容中的webHtml和pdfEN