首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用Nutch 1.6抓取PDF文档?

如何使用Nutch 1.6抓取PDF文档?
EN

Stack Overflow用户
提问于 2013-08-07 12:29:53
回答 1查看 1.1K关注 0票数 3

我使用Apache-Nutch1.6,我的要求是抓取PDF文件作为.pdf文件本身,但我不能抓取pdf文件作为文本本身。在我的nutch-site.xml中,我给了http.agent.name、http.robots.name、http.proxy.host alone..Is任何我应该添加的东西……在我的插件中,我只有parse-tika,有什么可以add...If所以建议我的链接…

我可以爬行.html,但是对于.pdf文件没有parsetext....

错误: parse.ParseUtil -无法成功解析类型为http://nutch.apache.orgmailing_lists.pdf /pdf parse.ParseSegment的内容应用程序-错误解析:http://nutch.apache.org/mailing_lists.pdf:失败(2,200):org.apache.nutch.parse.ParseException:无法成功解析内容

提前感谢....

EN

回答 1

Stack Overflow用户

发布于 2013-08-07 12:56:54

根据我的知识,这个类的路径是: pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/PDPage.class) ...Check pdpage.class or not。对于您的问题,它是必需的。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18094693

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档