首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用任何Java库使现有的PDF文本可搜索?用OCR

如何使用任何Java库使现有的PDF文本可搜索?用OCR
EN

Stack Overflow用户
提问于 2014-04-04 12:22:18
回答 3查看 3.6K关注 0票数 0

有java库吗?如何使用任何java库生成可搜索的文本?开源或付费。

如何使用PDFBox将OCR应用于pdf?如何使pdf文本可编程搜索使用pdfbox,我搜索了很多。没有找到任何解决办法。有人能粘贴OCR PDFBox的代码吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-04-04 12:24:44

试试Apache PDFBox

提取文本:Textextraction提取

票数 0
EN

Stack Overflow用户

发布于 2015-04-30 13:22:22

有java库吗?如何使用任何java库生成可搜索的文本?开源或付费。

您可以使用Gnostice XtremeDocumentStudio for Java实现这一点。有关更多细节,请参见下面的链接。

Java

在本文中,我们演示了如何将扫描图像转换为可搜索的PDF。实际上,输入可以是任何扫描文档(图像、PDF或DOCX)。

免责声明:我为Gnostice工作。

票数 0
EN

Stack Overflow用户

发布于 2021-06-28 17:29:15

您可以使用PDFBox从PDF文件中提取图像,然后使用您选择的OCR系统(例如,Tesseract)获取文本。或者,如果PDF是混合文本和图像,您可以使用Ghostscript创建每个PDF页面的图像,然后运行OCR。

如果您随后需要一个可搜索的PDF文件,首先编写文本,然后在文本顶部绘制图像,从而构建一个新的PDF。文本将是可搜索的,但您将只看到图像。

请注意,OCR引擎如Tesseract和Google将返回每个单词的位置信息,因此您将能够将文本放置在正确的位置。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22862704

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档