前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OCR汉字识别的测试

OCR汉字识别的测试

作者头像
sparkexpert
发布2018-01-09 16:11:02
8.5K0
发布2018-01-09 16:11:02
举报

最近一直在做信息提取,其中碰到图片中文字提取的模块,这里面还真的水也很深。当然文字的定位提取是关键一步,但是更重要的还是后面直接输出文字模块。

目前开源的tesseract,虽然已经取得了比较大的进步,但是经过今天测试,发现还需要有更大的提取。以目前的tesseract3.04版本,其测试结果如下:

不过,简单了看了下这个开源架构,总体上可读性很强,也有很多封装接口。如针对C#和JAVA都可以调用,还是比较方便的。从其训练集来看,也支持非常多的语言,只是目前精度上还是需要再提高提高啦。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年08月19日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档