技术教程：2个Python程序识别图片和pdf上的文字！

文章来源：企鹅号 - Python新世界

实例一：先减少背景杂音，再做图片文字识别

为了提高识别率，先用opencv-python对扫描的图片做预处理（减少背景杂音），然后调用pytesseract识别图片上的文字。处理方式就是：

1、将图片的颜色模式转成灰度模式，再用OTSU做二值化处理

2、将处理结果保存成临时图片文件

3、调用pytesseract识别临时图片上的文字，识别完毕后删掉临时图片

选择要识别文字的图片调用tkinter打开图形化对话窗口，tkinter是python内置模块，可直接引进不必安装。对tkinter不做太多解释，只是借助它的功能函数打开对话窗口。引入内置os的功能函数删除临时文件。

提高图片文字的识别率和正确率是个大话题，跟图片上文字的背景有关系，跟图片分辨率有关系，跟识别用的字库的识别能力也有关系（字库可以训练），牵扯的技术手段很多。除了减少背景杂音外，还有一些预处理工作我们也可以做，比如把图片上有文字的部分截取下来识别（效果很明显）；把图片上的文字分成一小段一小段识别，甚至分成一个一个字符来识别……有兴趣的朋友可以自己研究。

实例二：识别pdf上的文字

识别pdf上的文字分几步进行：

1、引入wand模块，把pdf文件转成图片序列，通过序列的索引可以获得pdf的每一页。

2、遍历这个图片序列，把序列的每一页变成wand图片对象，转成灰度模式（简单预处理下，以提高识别度），接下来本应添加进图像列表req_image中，但却遇到一个问题：

PyOCR模块做图片文字识别的功能函数的形参只接收pillow的Image模块打开的图片PIL.Image.open()，不接受wand图形对象，PIL.Image.open()也不接收wand图片对象。当然可以wand图像对象保存成图片文件，然后PIL.Image.open()打开这个图片文件。

有个更快的处理方法，不用硬盘（硬盘慢）做媒介用缓存（buffer）：先用wand图片对象的make_blob把图片转成二进制数据流，把二进制数据流放入列表req_image中。

3、遍历列表req_image，ByteIO()读取二进制数据流，返回值可以被PIL.Image.open()接受。接下去就可以调用PyOCR模块的功能函数做图片文字转换了。

4、将识别结果放进列表final_text，用pprint模块的pprint()显示出来。pprint，pretty print顾名思义，输出结果规整好看一些。

发表于: 2019-01-172019-01-17 11:34:41
原文链接：https://kuaibao.qq.com/s/20190117A0FJUS00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

技术教程：2个Python程序识别图片和pdf上的文字！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐