前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Tesserocr库安装与使用

Tesserocr库安装与使用

作者头像
stormwen
发布2019-08-05 20:15:38
1.5K0
发布2019-08-05 20:15:38
举报
文章被收录于专栏:公众号:googpy公众号:googpy

Tesserocr是python的一个OCR识别库,但其实是对tesseract做的一层python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。

这里我主要和大家分享一下自己在安装和使用tesserocr库的过程中遇到的一些坑。

问题一:当我们从网上下载安装好tesseract后,接下来,我们安装tesserocr库,当直接使用pip安装时,会出现如下图所示的错误。

出现上述错误主要是缺失Microsoft Visual C ++ 14.0组件支持。

解决方法如下:

方法一:

最简单的解决办法,是安装运行C ++应用程序所需的Visual C ++组件,下载地址:https://go.microsoft。?COM / fwlink / LINKID = 615460。

但是,我更推荐下面这种方法。

方法二:

Step1:下载匹配的whl文件。链接地址:

https://github.com/simonflueckiger/tesserocr-windows_build/releases

Step2:查看自己的python版本匹配对应文件

以我的为例,Python版本3.7 win64,匹配对应文件:

Step3:下载完成后使用pip安装:

代码语言:javascript
复制
“E:\Program Files (x86)\Python3.7\tesserocr-2.3.1-cp37-cp37m-win_amd64.whl”

验证安装

用到的例子的链接为:https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存下载。

首先用命令行进行测试,将图片下载下来保存为image.png,然后用tesseract命令测试:

tesseract image.png result -l eng

问题二:但是这时会出现tesseract既不是内部命令,也不是外部命令的错误提示,那么如何解决这个问题呢?

在环境变量的系统变量PATH,把tesseract-OCR的安装路径(如E:\Program Files (x86)\Tesseractor-OCR;)添加进去。

点击计算机—属性——高级设置——环境变量,点击环境变量,进入配置以下界面。

把刚才的安装路径“E:\ Program Files(x86)\ Tesseract-OCR”添加到用户变量Path和环境变量Path中去。下面是我的配置信息样本:

问题三:然后在运行上述的验证安装的命令,出现无法识别tesseract的错误提示,那么又怎么解决这个问题呢?

Step1:新建TESSDATA_PREFIX变量,值为tessdata的路径,我的是“E:\ Program Files(x86)\ Tesseract-OCR \ tessdata”;

Step2:在命令行输入tesseract image.png result -l eng && cat result.txt,运行结果如下:

Tesseract open source OCR Engine v3.05.01 with Leptonica

此外,我们还可以利用python代码来测试,比如在pycharm里用如下代码进行测试,这里就需要借助于tesserocr库了,测试代码如下:

代码语言:javascript
复制
import tesserocr
from PIL import Image
image = Image.open(r'E:\Program Files (x86)\Python3.7\image.png')
print(tesserocr.image_to_text(image))

问题四:使用tesserocr.image_to_text(“path”)报错:运行错误:初始化API失败,可能是无效的tessdata路径。

初始化API失败,可能是在路径E:\下存在无效的tessdata,意思是在E盘中找不到tessdata。

解决方案:将Tesseract-OCR 文件中的tessdata文件夹复制到Python的安装目录下

我们首先利用Image读取了图片文件,然后调用了tesserocr的imag_to_text()方法。再将其识别结果输出。

运行结果如下:

Python3WebSpider

另外,我们还可以直接调用file_to_text()方法,这可以达到同样的效果:

代码语言:javascript
复制
import tesserocr
print(tesserocr.file_to_text(r'E:\Program Files (x86)\Python3.7\image.png'))

通过这个简单的文字识别例子,证明了tesserocr和tesseract都已经安装成功。

今天主要分享的是关于tesserocr库安装和使用的知识,对小白来说,可以少走很多弯路,希望大家一起学习,一起进步。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 googpy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档