
OCR这项技术历来是大企业的专属,而且由于实现起来非常复杂,造成类库依赖非常严重,结果就是特别重,动辄需要几个G,甚至上百G空间,往往还需要连接互联网。这种限制对于涉密企业来说极为难受,涉密企业不能上网,而且文件进入涉密网络要经过层层筛检,文件越多筛检越麻烦。总之,能够满足离线、轻量这两个关键要素的OCR工具非常少,信创系统下那就更少了。好在今天,DESK倚天剑出鞘了......
大家下载DESK最新版本后,打开图片浏览器,并使用OCR分析功能默认会遇到如下提示:

提示会告诉你,OCR的依赖类库需要单独安装,并且告诉你下载地址和安装位置。由于DESK本身安装介质只有不到200M,尽管内置了轻量级别的OCR类库,也需要额外的400M,差距实在有点大。为了让大多数用户更加轻量,DeskUI团队采用了扩展库这种方式。安装过程非常简单,就是解压,复制,最后重启DESK软件。下图为拖拽复制的示例:

使用DESK的OCR识别单张图片主要有两种方法:
使用剪切板粘贴的方式识别图片文字非常快捷,如下图所示:

分析远程或者本地服务器上的图片,非常方便,如下图:

另外值得一提的是,DESK的ocr分析功能可以把一些特定的表格转换成html页面,如下图所示:

今天的分析就先到这里了,有人可能会问一个PDF扫描版怎么批量转成文字?我知道,我知道。关于OCR批量转文字的内容咱们明天单独写文章。因为,今天还有一个更重要的内容需要分享给大家。
很多热心网友误以为DeskUI团队很厉害,能够搞定OCR。其实并不是我们厉害,但的确有猛人,而且就是中国人。

坦率来说,DeskUI团队一直寻找一款纯java语言的轻量级类库至少一年多了。今天终于找到了,所以赶快集成起来分享给大家。DESK倚天剑中使用的OCR库来自“番石榴实验室”如下图所示:

不得不说国内有高人啊,这是笔者见到的唯一纯java语言的OCR类库。喝水不忘打井人,笔者代表DeskUI团队向“番石榴实验室”致以最崇高的敬意,祝他们的纯java OCR项目越来越完善。同时也建议那些投资人,别光投资那些概念如“这个底座,那个智能,一会大数据,一会大模型,多模态,超融合,区块链,神精元,高赋能,全周期.....”,也投资点类似“纯java OCR”这种能够实际落地的黑科技。