我正在做一个项目,在这个项目中我必须开发OCR算法(我必须从图像中读取文本,然后将它转换成不同的语言),.So,我的第一个任务是从图像中获取文本。
完成第一项任务的步骤。
结果
所以我需要帮助,在第6部分,我已经完成了行检测部分(从包含n行的段落中获取n个图像),但在下一部分得到单词和字符recognisation.If,您知道与OCR和字符识别部分相关的良好链接,然后请在这里发布。
对于字符识别,我正在考虑使用http://asprise.com/product/ocr/index.php?lang=java (Java)
发布于 2013-06-14 02:58:33
若要检测旋转角,请使用Hough变换。
对于降噪,将没有邻接(北、东、南或西)的像素替换为相同颜色(使用容忍阈值的相似颜色)和邻居的平均值。
为布局检测搜索垂直空白。沿着垂直的缝隙切入。对于每个切片,现在搜索水平间隙,然后切片。如果切片的高度相同(类似),则处于直线级。否则,重复垂直/水平切片,直到您只剩下一行。最后一步是垂直切片,给出单个字符(在某些情况下是连接字符)。长而窄或短而宽的切片都是线条。
将字符切片与字符库进行比较。如果性能不是主要考虑的问题,请尝试在不同的字库中查找字符,直到可以识别所使用的字体为止。然后继续使用该字体进行字符识别,。
在原始图像中,用背景颜色替换每个字符,而背景色是通过对字符的每个像素不属于字符的一部分的插值像素来确定的。这将为您提供背景图像(如果有的话)。
发布于 2014-06-15 15:35:01
您应该使用代替Otsu方法。我认为这将是有帮助的http://www.csse.uwa.edu.au/~shafait/papers/Shafait-efficient-binarization-SPIE08.pdf,这种方法将自动消除噪音。
发布于 2013-06-14 03:05:44
您可能需要查看特塞尔中的字符识别部分。
https://stackoverflow.com/questions/15188104
复制相似问题