首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >apache Nutch中有没有插件可以同时索引原始内容中的webHtml和pdf

apache Nutch中有没有插件可以同时索引原始内容中的webHtml和pdf
EN

Stack Overflow用户
提问于 2018-04-23 15:31:03
回答 1查看 102关注 0票数 0

在apache Nutch中有没有任何插件可以用原始的content.Such来索引webHtml和pdfs,这样格式化就不会丢失。另外,我们可以使用nutch抓取html文件中的内部pdf链接吗?

EN

回答 1

Stack Overflow用户

发布于 2018-04-23 18:44:53

对于PDF,没有什么是开箱即用的。Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件(例如,使用PDFBox ),并尝试提取有关文档的格式化信息。

请记住,PDF文件的原始内容没有多大意义。也许你可以试着把你的PDF转换成HTML/XML,然后试着理解它的结构。也许像:http://pdfx.cs.man.ac.uk/example这样的库对您来说是有意义的。不做一些实验是不可能知道的。

关于“内部链接”,您是指同一文档中的链接,还是指向PDF内容中其他文档/网页的链接?如果您指的是PDF中的内部链接,根据库的不同,您可能会这样做。

请记住,PDF不是一种易于处理的格式。Tika/PDFBox项目在简化这项任务方面做出了令人惊叹的工作,即使投入了所有的时间和精力,也有一些edge文件是“有问题的”。只是一个小小的警告。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49975600

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档