下面是我的python脚本,用于读取图像上的文本。但它不能正常工作,因为后来的t被理解为+或f.I想知道如何处理这个问题吗?我还附上了我正在尝试读取的文件。
import tesserocr
from PIL import Image
print tesserocr.tesseract_version() # print tesseract-ocr version
print tesserocr.get_languages() # prints tessdata path and list of available languages
image = Image.open('t
我们目前正在研究在提交到OCR之前提高图像质量的方法。我们目前使用的OCR引擎是Nuance的Scansoft API (v15)。我们正在研究,但后来决定把目光投向别处。与Lead Tools相关的许可成本实在太高了。首先,我们正在寻找简单的图像增强功能,如:去偏斜,去斑点,去除线条,去除冲孔,锐化等。我们运行的是.NET和Java软件的混合,但java解决方案将是首选。