我必须从一个视频中提取文本,该视频具有类似于以下图像的经纬度数据:
图像的分辨率非常低,并且tesseract和online OCR在没有任何处理的情况下无法提取文本。我尝试使用this去除灰色背景,并减去灰色矩阵,但没有产生有意义的输出。我转换为HSV来提取黄色文本,但再次,没有得到有意义的结果。
我想知道是否有任何方法可以提取文本。最有希望的线索似乎是背景是灰色的,文本是半透明的黄色。
发布于 2015-12-01 15:46:31
这些图像的主要问题是分割字符。如果他们有一个固定的地方,你就完了。(跳过下一段。)
如果没有,首先通过轮廓分析定位字符组之间的空格,以简化任务。对于每个组,尝试识别最左边的字符,然后跳过它以转到下一个字符,依此类推。
字符的识别可以通过与相同字体的参考字符直接进行SAD或SSD比较来进行。
不要期待太好的结果。
发布于 2015-12-02 09:36:00
通常,DPI只是一个数字,所以您可以更改它(我不知道python中是如何更改的,但应该有一种方法)。在将其传递给OCR引擎之前,请尝试将其更改为200或300。如果这还不起作用,那么除了将DPI设置为300之外,还可以尝试将其调整为200%。此外,最好的OCR结果是针对黑白图像,因此尝试对图像应用图像处理,将其转换为黑白图像。我找到了以下链接,可能会对您有所帮助:Using python PIL to turn a RGB image into a pure black and white image
https://stackoverflow.com/questions/34021755
复制相似问题