首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Howto:使用C#在光学字符识别前提高PDF质量

Howto:使用C#在光学字符识别前提高PDF质量
EN

Stack Overflow用户
提问于 2011-07-06 16:06:43
回答 1查看 1.9K关注 0票数 5

我正在创建一个服务,用于监视文件夹中的扫描文件。一旦文件存在,该服务就会提取它,并将其转换为可读的PDF。在此过程中,该服务还会搜索条形码。在此之后,提取文本,并将文件及其文本存储到我们软件的数据库中。该位置基于条形码。

现在,对于光学字符识别,我们使用了Atalasoft的SDK (http://www.atalasoft.com/)。此外,条形码识别器也包含在此SDK中。

但是转换后的文本仍然有一些错误。(我用其他OCR程序运行了一些测试,但Atalasoft运行得很好。)我正在寻找一些软件(SDK-套件),可以让我提高的质量的PDF的OCR的目的。

我测试了Kofax (http://www.kofax.com/vrs-virtualrescan/)。我正在寻找类似的东西,但这可以使用某种SDK-kit在服务中实现。

以前有没有人这样做过,或者有过类似的问题?提前谢谢你!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-07-06 17:02:56

你可以尝试一条完全不同的道路:

查看是否可以将扫描仪配置为直接扫描到PDF并动态执行OCR。Lexmark扫描器可以做到这一点。这将创建具有可选择和可搜索文本的PDF。这反过来可以通过PDF阅读库来提取。

或者,你可能想看看http://www.abbyy.com/,看看你是否能得到更好的结果。

如果这些不是好的选择,您可能需要以系统的方式分解您的问题:

  1. 扫描图像的图像质量是问题所在吗?如果是这样,那么必须首先解决这个问题。您的光学字符识别解决方案可能会受到分辨率、对比度和颜色的影响。
  2. 是否为光学字符识别软件?拿一份可读性很强的文档,看看OCR软件是否出错。如果是这样的话,你就知道你必须找到更好的光学字符识别软件。
  3. 如果你的文档质量很好,而且你的光学字符识别软件在破译易读文档方面有很高的成功率,那么你可能需要查看不起作用的例外情况,并逐一解决这些问题。

如果文档上的涂抹和背景图像是问题的原因,您可能需要寻找避免这种情况的方法,或者使用提供API的图像处理软件进行清理。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6593310

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档