文章/答案/技术大牛

发布

社区首页 >问答首页 >如何向只包含图像的PDF中添加文本？

问如何向只包含图像的PDF中添加文本？
EN

Software Recommendation用户

提问于 2018-05-25 19:31:27

回答 2查看 91关注 0票数 0

我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描，同时使用Foxit PhantomPDF向PDF中的图像添加文本。

这两种解决方案都带来了不错的OCR，但是也有一些缺陷，比如在非文本上出现错误，或者99%的文本在页面上被漏掉，因为页面的角落中有3-4个单词与页面上的所有其他文本一样，它们都是90度旋转的。

至少PhantomPDF允许您检查软件认为可能是假阳性的内容，但您没有太多的控制能力。

最先进的OCR解决方案是将图像转换为可搜索的PDF，还是将(隐藏的)文本添加到仅包含图像的现有PDF中(添加搜索功能)？

pdf

ocr

回答 2

Software Recommendation用户

发布于 2018-05-25 20:25:01

如果编程解决方案有效，同步Tesseract OPX为Tesseract引擎提供了一个包装器，可用于处理PDF文档中的图像中的文本，并将其与可搜索的文本覆盖。

//Load a PDF document
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the PDF document and Tesseract data
processor.PerformOCR(lDoc, @"Tessdata\");
//Save the OCR processed PDF document in the disk
lDoc.Save("Sample.pdf");
lDoc.Close(true);

Tesseract OPX是免费的，但基本PDF是一种授权产品。如果你符合条件，整个产品也可以通过社区许可证免费获得(收入低于100万美元)。

注:我为同步公司工作。

票数 3

Software Recommendation用户

发布于 2018-09-06 20:34:34

除了使用编程库之外，还有另一种方法来保存OCR文档和图像，并将其保存为可搜索的PDF。LEADTOOLS ePrint打印机驱动程序和转换器具有OCR选项。(免责声明:本人是本驱动程式供应商的雇员)。若要使用它，请打印源文档或图像并选择OCR打印机。您可以将打印输出保存为PDF或其他一些文档格式。

它有一个“智能”设置，您可以选择它使它只包含图像和没有文本的OCR作业。它还支持将PDF保存为“图像而不是文本”，以保持原始文档或图像的外观，同时使其可搜索。如果你想试一试，有一个有时间限制的免费评估版。

票数 1

页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwarerecs.stackexchange.com/questions/50318

复制

相似问题

问如何向只包含图像的PDF中添加文本？
EN

回答 2

Software Recommendation用户

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何向只包含图像的PDF中添加文本？EN

回答 2

Software Recommendation用户

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何向只包含图像的PDF中添加文本？
EN