最近一直在做信息提取,其中碰到图片中文字提取的模块,这里面还真的水也很深。当然文字的定位提取是关键一步,但是更重要的还是后面直接输出文字模块。
目前开源的tesseract,虽然已经取得了比较大的进步,但是经过今天测试,发现还需要有更大的提取。以目前的tesseract3.04版本,其测试结果如下:
不过,简单了看了下这个开源架构,总体上可读性很强,也有很多封装接口。如针对C#和JAVA都可以调用,还是比较方便的。从其训练集来看,也支持非常多的语言,只是目前精度上还是需要再提高提高啦。
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!