在apache Nutch中有没有任何插件可以用原始的content.Such来索引webHtml和pdfs,这样格式化就不会丢失。另外,我们可以使用nutch抓取html文件中的内部pdf链接吗?
发布于 2018-04-23 18:44:53
对于PDF,没有什么是开箱即用的。Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件(例如,使用PDFBox ),并尝试提取有关文档的格式化信息。
请记住,PDF文件的原始内容没有多大意义。也许你可以试着把你的PDF转换成HTML/XML,然后试着理解它的结构。也许像:http://pdfx.cs.man.ac.uk/example这样的库对您来说是有意义的。不做一些实验是不可能知道的。
关于“内部链接”,您是指同一文档中的链接,还是指向PDF内容中其他文档/网页的链接?如果您指的是PDF中的内部链接,根据库的不同,您可能会这样做。
请记住,PDF不是一种易于处理的格式。Tika/PDFBox项目在简化这项任务方面做出了令人惊叹的工作,即使投入了所有的时间和精力,也有一些edge文件是“有问题的”。只是一个小小的警告。
https://stackoverflow.com/questions/49975600
复制相似问题