首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用pdfbox,为什么可以提取文本,但不能提取图像

使用pdfbox,为什么可以提取文本,但不能提取图像
EN

Stack Overflow用户
提问于 2013-01-31 10:56:51
回答 1查看 500关注 0票数 0

我正在使用pdfbox从这个pdf中提取图像和文本。我有以下提取文本的代码:

代码语言:javascript
运行
复制
 PDFTextStripper p = new PDFTextStripper();
 String thistext=p.getText(document);

它可以正确地提取文本。但是,当我尝试使用ExtractImages类从相同的pdf中提取图像时,生成的图像是pdf的所有页面,而不是实际的图像。这是因为pdf可能是扫描副本的原因吗?如果这是真的,为什么文本会被提取出来?

EN

回答 1

Stack Overflow用户

发布于 2013-01-31 10:59:18

我相信它被扫描的事实是你的问题。虽然我见过扫描的PDF检测文本(并使其可突出显示),但它仍然是一幅图像。为了验证这个假设,我会尝试使用已知良好的PDF,比如this one

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14617728

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档