我正在尝试创建一个软件,通过捕获屏幕截图,然后OCR (光学字符识别)它寻找一个特定的按钮来点击(例如)的PC自动化。我已经得到了鼠标和键盘控制部分,但现在,我需要一个OCR来处理屏幕截图。我发现Tesseract OCR似乎不能很好地处理屏幕上的文本。文本要么太小,要么一些文本似乎是连接在一起的,比如K和X。我该怎么做呢?
p/s:这是一个自动化测试程序。
发布于 2009-05-22 03:24:04
也许在光学字符识别之前,先看看this question上的图像增强。除此之外,这个问题非常类似于"OCR for .NET"。
如果你觉得自己真的很大胆,你总是可以想出一个简单的感知器或神经网络方法:-)
发布于 2009-07-24 11:50:43
我不确定这是否真的适合你,但我在自动化领域看到的一些更好的光学字符识别是由Tevron的CitraTest完成的。它包含一个字体库,如果字体集不存在,他们将根据您的提交创建一个新的字体集。这个工具的负面因素是成本和与可变屏幕分辨率相关的常见问题。
https://stackoverflow.com/questions/896224
复制相似问题