五分钟了解一下 文字识别 OCR

前记

早在2012年的时候小哥我已经积极在折腾OCR这个领域的软件,可惜当年老东家的2011年刚毕业给我办公电脑只有酷睿2 E5300 + 2G内存的配置,连abbyy finereader 10都开不到,当时便放弃治疗了。

想想,我用了这个当年便过时的配置,极尽优化之事,用着最低的WIN XP视觉效果从2011年挺到2017年年头,我都觉得神奇,有时甚至比更高配置的电脑打开CAD图纸快。至于后来有人传承我那台电脑便不得而知了,不过估计传承了也会直接跪吧,毕竟令电子产品乖乖驯服这种神奇的能力不谁都有......

及至上年我转工后,神奇地发现新单位的存档机制乱得一B,所有合同、变更扫描件都找不到原来的Word、Excel,为了早点下班,又被迫重新倒腾起OCR软件了,直至现在又换了新东家还在折腾,下面就分享一下的折腾的成果吧

(已经发展这么多年连组个服务器放所有部门所有同事的文件存档建立一个合理的存档机制都不做,我也不知道旧公司在想什么.....真是辛苦还在那边拼搏的旧同事了)

1

白 描(IOS/Android)

首先要介绍的是手机版的APP,相对以前OCR引擎的发展很大一部分来源于移动设备端的发展。这次要介绍的是手机平台OCR识别率最高的 白描,

功能相当强大

支持手机摄影头实时扫描识别

可批量扫描图片,批量文字识别,批量生成PDF

支持简体中文、日语、英语、韩语、法语、西班牙语、阿拉伯语、俄语、德语、葡萄牙语、意大利语、繁体中文、粤语、文言文的互译(文言文那个有还在读书的小朋友可以试一下)

功能强大甚至完爆电脑平台的OCR软件。目前苹果App Store售价6 CNY批量版30 CNY,有移动办公需求或者还在K文献写论文paper的小伙伴不妨考虑下。

2

TWO

福昕风腾PDF

Foxit PhantomPDF

之前一直有关注这里的小伙伴估计在之前

这两篇文章里面看过这个软件的身影,不过之前说的主要是5.0版本,这次要说的是8.0以上版本。8.0版本以上的PhantomPDF有OCR功能,可以很快速地将PDF软件快速扫描一次识别PDF文件里的文字。之前识别投标单位的资质证书里的文字妥妥地,可以复制粘贴。不过,这软件在识别表格或者PDF图纸的时候便不那么灵光,识别率变低。不过速度快这个特点已经可以帮大家省掉不功夫了,这里识别出错,还有其它软件可以补上。福昕风腾可以说是招标工程师必备,有没有

3.

ABBYY FineReader 14/12

ABBYY是全球文字识别界的巨头,服务教育、文化、财务、医药保健等多个领域的大型跨国公司,帮助大型企业文档数字化,产品线齐全,实力强大。其下的FineReader是我们能接触的一般产品,支持识别汉语、日语、韩语、阿拉伯语在内192种语言,还可以支持输入PDF/图像文件输出Word/Excel等文档。

这也是小哥在前东家用得最多的软件之一(谁叫他们存档这么坑),累计转化回Excel表的文件该有十几二十份了。

值得一提的是,目前FineReader 最新版本是14,不过网上的和谐版已经没官网采取法律程序取缔了,就像有些网友说的一样,比恐龙还稀有。But,小哥还是找到14的和谐文件,不过所谓的和谐方案也不是完全破解,更改系统时间会导致破解失效,重装系统才能解决。而且,如果原来已经安装过试用版再安装和谐版也一样过期,也是重装系统才能解决。而FineReader 12便有成熟的和谐方案,不过效率比14比低一些就是了,无论是14版或者12版都是值得珍藏的版本。

4.

天若 OCR

天若OCR 这软件并不是商业软件,是“吾爱破解” 论坛 天若幽心 这位大神的大作,原理是调用搜狗、腾讯、百度或有道的OCR接口识别屏幕上的文字,识别率不错,速度也算快,也是最近小哥用得最多的软件之一(幸好有这个软件,不然补合同条款码到死),不过识别表格便不太给力了,不过逐列识别还是蛮有管用的。

旺丁旺财杂货铺

关注我们,让生活过得更有质量

Feel Free to Enjoy your Life!

上车请自觉投币

这篇质量上乘,值得投币2个大洋以上

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180626G0082E00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券