问如何使用Nutch 1.6抓取PDF文档？
EN

Stack Overflow用户

提问于 2013-08-07 12:29:53

回答 1查看 1.1K关注 0票数 3

我使用Apache-Nutch1.6，我的要求是抓取PDF文件作为.pdf文件本身，但我不能抓取pdf文件作为文本本身。在我的nutch-site.xml中，我给了http.agent.name、http.robots.name、http.proxy.host alone..Is任何我应该添加的东西……在我的插件中，我只有parse-tika，有什么可以add...If所以建议我的链接…

我可以爬行.html，但是对于.pdf文件没有parsetext....

错误: parse.ParseUtil -无法成功解析类型为http://nutch.apache.orgmailing_lists.pdf /pdf parse.ParseSegment的内容应用程序-错误解析：http://nutch.apache.org/mailing_lists.pdf：失败(2,200)：org.apache.nutch.parse.ParseException:无法成功解析内容

提前感谢....

parsing

pdf

nutch

回答 1

Stack Overflow用户

发布于 2013-08-07 12:56:54

根据我的知识，这个类的路径是: pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/PDPage.class) ...Check pdpage.class or not。对于您的问题，它是必需的。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18094693

复制

相似问题

问如何使用Nutch 1.6抓取PDF文档？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Nutch 1.6抓取PDF文档？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Nutch 1.6抓取PDF文档？
EN