有java库吗?如何使用任何java库生成可搜索的文本?开源或付费。
如何使用PDFBox将OCR应用于pdf?如何使pdf文本可编程搜索使用pdfbox,我搜索了很多。没有找到任何解决办法。有人能粘贴OCR PDFBox的代码吗?
发布于 2014-04-04 12:24:44
试试Apache PDFBox。
提取文本:Textextraction提取。
发布于 2015-04-30 13:22:22
有java库吗?如何使用任何java库生成可搜索的文本?开源或付费。
您可以使用Gnostice XtremeDocumentStudio for Java实现这一点。有关更多细节,请参见下面的链接。
Java
在本文中,我们演示了如何将扫描图像转换为可搜索的PDF。实际上,输入可以是任何扫描文档(图像、PDF或DOCX)。
免责声明:我为Gnostice工作。
发布于 2021-06-28 17:29:15
您可以使用PDFBox从PDF文件中提取图像,然后使用您选择的OCR系统(例如,Tesseract)获取文本。或者,如果PDF是混合文本和图像,您可以使用Ghostscript创建每个PDF页面的图像,然后运行OCR。
如果您随后需要一个可搜索的PDF文件,首先编写文本,然后在文本顶部绘制图像,从而构建一个新的PDF。文本将是可搜索的,但您将只看到图像。
请注意,OCR引擎如Tesseract和Google将返回每个单词的位置信息,因此您将能够将文本放置在正确的位置。
https://stackoverflow.com/questions/22862704
复制相似问题