首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

拥有完全自主的 OCR 识别引擎,这款 APP 可能是你的菜

如果非要说「深度识别」App 有什么特点的话,那最大的特点应该就是它拥有完全自主的 OCR 识别引擎。

这个App的起点是开发者在2014、2015年左右做过的一个验证码识别系统。数字验证码并不难,只是0-9十个数字,加上轻微的旋转扭曲缩放即可。如果有粘连字符需要进行切分的话,使用维特比算法计算最大联合概率即可。

但是汉字跟验证码不同,汉字很复杂,并且数量很多(常用汉字就3000多),再加上旋转扭曲缩放,样本数量非常恐怖,怎样把一大坨汉字样本塞进App的应用包里面是一个煞费苦心的事情。

所以当初为了研究汉字OCR识别,开发者实验了N种算法——要么是识别效果不好,要么是识别太慢,要么是样本库太大——最后选择的是一种接近深度学习的多层神经网络算法,终于实现了相对满意的汉字识别效果。

▎双模式文字识别

在「深度识别」的早期版本,完全是调用本地识别的。在18年以后,引入了百度的在线识别API,实现了两者互补:

如果用户需要更好的识别效果,那么App联网时会调用百度的文字识别 API。

如果用户觉得联网识别会暴露隐私或者说工作中会经常遇到没用网的情况,那么App会自动调用本地的 OCR识别引擎。

这样,无论任何情况都能够不影响 App 正常工作。

▎双模式选择文字

大多数情况下,我们要选择一大段文字来识别,可以直接反手一个框选过去就是一片文字。但是假如我们只想选择一两行文字,或者甚至一行文字中的一个部分,那么使用框选就显得有点别扭了。

在「深度识别」App 中,除了可以通过裁剪框来框选大片文字,还可以通过涂抹功能来选择小块文字,后续的版本还打算开发橡皮擦功能,这样涂抹错误的地方就可以擦除掉。

这样,裁剪选择和涂抹选择就分别对应了两个不同的场景——选择大片文字和选择小块文字。类似于前面的双模式识别,实现了另外一种功能上的互补。

▎批量识别

在图片选择界面这里,用户可以一次性选择最多 9张图片进行批量识别,识别完毕之后,用户可以查看每一张图片的识别结果,也可以查看合并的识别结果。在合并识别结果里面,用户之前选择的多张图片会合并为一整张长图,识别结果文字也会合并为一整块的文字,方便进行完整的文字校对工作。

▎导出功能

识别完毕的文字可以复制到粘贴板,可以翻译成其他语言,可以使用苹果内置的各项导出功能分享到其他App,还有两项「深度识别」特有的功能,一是可以把识别完毕的文字作为text文件保存到App自带的文件系统里面;二是可以把文字导出为docx格式。

*iOS 版导出为付费功能,有 25 元买断和 12 元导出 120 次两种内购方式,大家可以在下载 App 测试过识别准确率和应用体验后决定是否要付费支持。

▎未来的规划

总的来讲,开发这个App还是为了更好地为人民币(划掉,是人民)服务,并没有什么十分严谨的庞大的规划。

如果要说打算做点什么的话,那就是三点工作:

一是讨好苹果爸爸,好好包装一下App,并且尽量集成苹果的新功能新特性;

二是在技术允许的条件下添加一些新可以实现的功能,比如连拍、识别表格、文件云备份等等,尽可能地改进用户体验;

三是如果还有余力的话,研究一下新的核心技术(具体研究什么暂时保密),毕竟老本行是做算法的嘛。

只是做了一点微小的工作,谢谢大家。

▎最美尾巴

说起来,小美推荐过的 OCR 应用也有不少了,有付费的,有免费的,有功能专一的,也有扩展丰富的...每款 App 都跟他们的开发者一样,各具特色,针对性也不同,总有一款适合你。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190925A0KZUG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券