我正在创建一个服务,用于监视文件夹中的扫描文件。一旦文件存在,该服务就会提取它,并将其转换为可读的PDF。在此过程中,该服务还会搜索条形码。在此之后,提取文本,并将文件及其文本存储到我们软件的数据库中。该位置基于条形码。
现在,对于光学字符识别,我们使用了Atalasoft的SDK (http://www.atalasoft.com/)。此外,条形码识别器也包含在此SDK中。
但是转换后的文本仍然有一些错误。(我用其他OCR程序运行了一些测试,但Atalasoft运行得很好。)我正在寻找一些软件(SDK-套件),可以让我提高的质量的PDF的OCR的目的。
我测试了Kofax (http://www.kofax.com/vrs-virtualrescan/)。我正在寻找类似的东西,但这可以使用某种SDK-kit在服务中实现。
以前有没有人这样做过,或者有过类似的问题?提前谢谢你!
发布于 2011-07-06 17:02:56
你可以尝试一条完全不同的道路:
查看是否可以将扫描仪配置为直接扫描到PDF并动态执行OCR。Lexmark扫描器可以做到这一点。这将创建具有可选择和可搜索文本的PDF。这反过来可以通过PDF阅读库来提取。
或者,你可能想看看http://www.abbyy.com/,看看你是否能得到更好的结果。
如果这些不是好的选择,您可能需要以系统的方式分解您的问题:
如果文档上的涂抹和背景图像是问题的原因,您可能需要寻找避免这种情况的方法,或者使用提供API的图像处理软件进行清理。
https://stackoverflow.com/questions/6593310
复制相似问题