首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何向只包含图像的PDF中添加文本?

如何向只包含图像的PDF中添加文本?
EN

Software Recommendation用户
提问于 2018-05-25 19:31:27
回答 2查看 91关注 0票数 0

我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描,同时使用Foxit PhantomPDF向PDF中的图像添加文本。

这两种解决方案都带来了不错的OCR,但是也有一些缺陷,比如在非文本上出现错误,或者99%的文本在页面上被漏掉,因为页面的角落中有3-4个单词与页面上的所有其他文本一样,它们都是90度旋转的。

至少PhantomPDF允许您检查软件认为可能是假阳性的内容,但您没有太多的控制能力。

最先进的OCR解决方案是将图像转换为可搜索的PDF,还是将(隐藏的)文本添加到仅包含图像的现有PDF中(添加搜索功能)?

EN

回答 2

Software Recommendation用户

发布于 2018-05-25 20:25:01

如果编程解决方案有效,同步Tesseract OPX为Tesseract引擎提供了一个包装器,可用于处理PDF文档中的图像中的文本,并将其与可搜索的文本覆盖。

代码语言:javascript
运行
复制
//Load a PDF document
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the PDF document and Tesseract data
processor.PerformOCR(lDoc, @"Tessdata\");
//Save the OCR processed PDF document in the disk
lDoc.Save("Sample.pdf");
lDoc.Close(true);

Tesseract OPX是免费的,但基本PDF是一种授权产品。如果你符合条件,整个产品也可以通过社区许可证免费获得(收入低于100万美元)。

注:我为同步公司工作。

票数 3
EN

Software Recommendation用户

发布于 2018-09-06 20:34:34

除了使用编程库之外,还有另一种方法来保存OCR文档和图像,并将其保存为可搜索的PDF。LEADTOOLS ePrint打印机驱动程序和转换器具有OCR选项。(免责声明:本人是本驱动程式供应商的雇员)。若要使用它,请打印源文档或图像并选择OCR打印机。您可以将打印输出保存为PDF或其他一些文档格式。

它有一个“智能”设置,您可以选择它使它只包含图像和没有文本的OCR作业。它还支持将PDF保存为“图像而不是文本”,以保持原始文档或图像的外观,同时使其可搜索。如果你想试一试,有一个有时间限制的免费评估版

票数 1
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/50318

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档