技术教程:2个Python程序识别图片和pdf上的文字!

实例一:先减少背景杂音,再做图片文字识别

为了提高识别率,先用opencv-python对扫描的图片做预处理(减少背景杂音),然后调用pytesseract识别图片上的文字。处理方式就是:

1、将图片的颜色模式转成灰度模式,再用OTSU做二值化处理

2、将处理结果保存成临时图片文件

3、调用pytesseract识别临时图片上的文字,识别完毕后删掉临时图片

选择要识别文字的图片调用tkinter打开图形化对话窗口,tkinter是python内置模块,可直接引进不必安装。对tkinter不做太多解释,只是借助它的功能函数打开对话窗口。引入内置os的功能函数删除临时文件。

提高图片文字的识别率和正确率是个大话题,跟图片上文字的背景有关系,跟图片分辨率有关系,跟识别用的字库的识别能力也有关系(字库可以训练),牵扯的技术手段很多。除了减少背景杂音外,还有一些预处理工作我们也可以做,比如把图片上有文字的部分截取下来识别(效果很明显);把图片上的文字分成一小段一小段识别,甚至分成一个一个字符来识别……有兴趣的朋友可以自己研究。

实例二:识别pdf上的文字

识别pdf上的文字分几步进行:

1、引入wand模块,把pdf文件转成图片序列,通过序列的索引可以获得pdf的每一页。

2、遍历这个图片序列,把序列的每一页变成wand图片对象,转成灰度模式(简单预处理下,以提高识别度),接下来本应添加进图像列表req_image中,但却遇到一个问题:

PyOCR模块做图片文字识别的功能函数的形参只接收pillow的Image模块打开的图片PIL.Image.open(),不接受wand图形对象,PIL.Image.open()也不接收wand图片对象。当然可以wand图像对象保存成图片文件,然后PIL.Image.open()打开这个图片文件。

有个更快的处理方法,不用硬盘(硬盘慢)做媒介用缓存(buffer):先用wand图片对象的make_blob把图片转成二进制数据流,把二进制数据流放入列表req_image中。

3、遍历列表req_image,ByteIO()读取二进制数据流,返回值可以被PIL.Image.open()接受。接下去就可以调用PyOCR模块的功能函数做图片文字转换了。

4、将识别结果放进列表final_text,用pprint模块的pprint()显示出来。pprint,pretty print顾名思义,输出结果规整好看一些。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20190117A0FJUS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券