文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用任何Java库使现有的PDF文本可搜索？用OCR

问如何使用任何Java库使现有的PDF文本可搜索？用OCR
EN

Stack Overflow用户

提问于 2014-04-04 12:22:18

回答 3查看 3.6K关注 0票数 0

有java库吗？如何使用任何java库生成可搜索的文本？开源或付费。

如何使用PDFBox将OCR应用于pdf？如何使pdf文本可编程搜索使用pdfbox，我搜索了很多。没有找到任何解决办法。有人能粘贴OCR PDFBox的代码吗？

ocr

pdfbox

java

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-04-04 12:24:44

试试Apache PDFBox。

提取文本：Textextraction提取。

票数 0

Stack Overflow用户

发布于 2015-04-30 13:22:22

有java库吗？如何使用任何java库生成可搜索的文本？开源或付费。

您可以使用Gnostice XtremeDocumentStudio for Java实现这一点。有关更多细节，请参见下面的链接。

Java

在本文中，我们演示了如何将扫描图像转换为可搜索的PDF。实际上，输入可以是任何扫描文档(图像、PDF或DOCX)。

免责声明:我为Gnostice工作。

票数 0

Stack Overflow用户

发布于 2021-06-28 17:29:15

您可以使用PDFBox从PDF文件中提取图像，然后使用您选择的OCR系统(例如，Tesseract)获取文本。或者，如果PDF是混合文本和图像，您可以使用Ghostscript创建每个PDF页面的图像，然后运行OCR。

如果您随后需要一个可搜索的PDF文件，首先编写文本，然后在文本顶部绘制图像，从而构建一个新的PDF。文本将是可搜索的，但您将只看到图像。

请注意，OCR引擎如Tesseract和Google将返回每个单词的位置信息，因此您将能够将文本放置在正确的位置。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22862704

复制

相似问题

问如何使用任何Java库使现有的PDF文本可搜索？用OCR
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用任何Java库使现有的PDF文本可搜索？用OCREN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用任何Java库使现有的PDF文本可搜索？用OCR
EN