问使用pdfbox，为什么可以提取文本，但不能提取图像
EN

Stack Overflow用户

提问于 2013-01-31 10:56:51

回答 1查看 500关注 0票数 0

我正在使用pdfbox从这个pdf中提取图像和文本。我有以下提取文本的代码：

 PDFTextStripper p = new PDFTextStripper();
 String thistext=p.getText(document);

它可以正确地提取文本。但是，当我尝试使用ExtractImages类从相同的pdf中提取图像时，生成的图像是pdf的所有页面，而不是实际的图像。这是因为pdf可能是扫描副本的原因吗？如果这是真的，为什么文本会被提取出来？

发布于 2013-01-31 10:59:18

我相信它被扫描的事实是你的问题。虽然我见过扫描的PDF检测文本(并使其可突出显示)，但它仍然是一幅图像。为了验证这个假设，我会尝试使用已知良好的PDF，比如this one。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14617728

复制

相似问题

问使用pdfbox，为什么可以提取文本，但不能提取图像EN