我使用Apache-Nutch1.6,我的要求是抓取PDF文件作为.pdf文件本身,但我不能抓取pdf文件作为文本本身。在我的nutch-site.xml中,我给了http.agent.name、http.robots.name、http.proxy.host alone..Is任何我应该添加的东西……在我的插件中,我只有parse-tika,有什么可以add...If所以建议我的链接…
我可以爬行.html,但是对于.pdf文件没有parsetext....
错误: parse.ParseUtil -无法成功解析类型为http://nutch.apache.orgmailing_lists.pdf /pdf parse.ParseSegment的内容应用程序-错误解析:http://nutch.apache.org/mailing_lists.pdf:失败(2,200):org.apache.nutch.parse.ParseException:无法成功解析内容
提前感谢....
发布于 2013-08-07 12:56:54
根据我的知识,这个类的路径是: pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/PDPage.class) ...Check pdpage.class or not。对于您的问题,它是必需的。
https://stackoverflow.com/questions/18094693
复制相似问题