文章/答案/技术大牛

发布

社区首页 >问答首页 >Howto:使用C#在光学字符识别前提高PDF质量

问Howto:使用C#在光学字符识别前提高PDF质量
EN

Stack Overflow用户

提问于 2011-07-06 16:06:43

回答 1查看 1.9K关注 0票数 5

我正在创建一个服务，用于监视文件夹中的扫描文件。一旦文件存在，该服务就会提取它，并将其转换为可读的PDF。在此过程中，该服务还会搜索条形码。在此之后，提取文本，并将文件及其文本存储到我们软件的数据库中。该位置基于条形码。

现在，对于光学字符识别，我们使用了Atalasoft的SDK (http://www.atalasoft.com/)。此外，条形码识别器也包含在此SDK中。

但是转换后的文本仍然有一些错误。(我用其他OCR程序运行了一些测试，但Atalasoft运行得很好。)我正在寻找一些软件(SDK-套件)，可以让我提高的质量的PDF的OCR的目的。

我测试了Kofax (http://www.kofax.com/vrs-virtualrescan/)。我正在寻找类似的东西，但这可以使用某种SDK-kit在服务中实现。

以前有没有人这样做过，或者有过类似的问题？提前谢谢你！

pdf

ocr

readable

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-07-06 17:02:56

你可以尝试一条完全不同的道路：

查看是否可以将扫描仪配置为直接扫描到PDF并动态执行OCR。Lexmark扫描器可以做到这一点。这将创建具有可选择和可搜索文本的PDF。这反过来可以通过PDF阅读库来提取。

或者，你可能想看看http://www.abbyy.com/，看看你是否能得到更好的结果。

如果这些不是好的选择，您可能需要以系统的方式分解您的问题：

扫描图像的图像质量是问题所在吗？如果是这样，那么必须首先解决这个问题。您的光学字符识别解决方案可能会受到分辨率、对比度和颜色的影响。
是否为光学字符识别软件？拿一份可读性很强的文档，看看OCR软件是否出错。如果是这样的话，你就知道你必须找到更好的光学字符识别软件。
如果你的文档质量很好，而且你的光学字符识别软件在破译易读文档方面有很高的成功率，那么你可能需要查看不起作用的例外情况，并逐一解决这些问题。

如果文档上的涂抹和背景图像是问题的原因，您可能需要寻找避免这种情况的方法，或者使用提供API的图像处理软件进行清理。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6593310

复制

相似问题

问Howto:使用C#在光学字符识别前提高PDF质量
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Howto:使用C#在光学字符识别前提高PDF质量EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Howto:使用C#在光学字符识别前提高PDF质量
EN