前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python:tesserocr 在 windows 下的安装及简单使用

Python:tesserocr 在 windows 下的安装及简单使用

作者头像
丹枫无迹
发布2019-01-22 16:03:01
7010
发布2019-01-22 16:03:01
举报
文章被收录于专栏:学无止境学无止境

tesserocr 是 python 的一个 OCR 库,它是对 tesseract 做的一层 Python API 封装,所以他的核心是tesseract。

tesseract 的安装见 https://cloud.tencent.com/developer/article/1386525

windows 下安装 tesserocr 是一个坑爹的事情,直接用 pip 安装是不可以的,会报错,只能用 .whl 的方式安装。据说 pip 的方式只能用于 Linux 系统,没验证过。

whl 下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

网站中列出了 tesserocr 和 tesseract 版本的对应关系,选择对应的版本,否则会出现非预期字符。

安装 whl 时要注意几个问题。

1、报如下错误:

报这个错误的原因是改动了python 的目录名称或位置。我用 pycharm 每个项目都是单独的配置,并且我改动过了项目名称导致了这个问题。

解决办法:找到修改 python 所在的目录,打开 scripts 目录,找到 pip-script.py 文件,将第一行的路径改正确了就可以了。

2、python3.6 默认自带的 pip 版本是9.0.1,版本太低,需要升级。升级后,pip-script.py 文件中的版本号也要更改,否则依然认为你没更新。

3、当路径中包含中文时,可能会出现编码问题。

这个问题比较奇怪,中文路径可以肯定的是允许的,实际验证过,应该是 pip-script.py 的文件编码问题,但是我尝试了更改编码方式,也不行。这问题目前有两个解决方案,一是把路径改成英文的,二是从别的可以包含中文路径的地方把 pip-script.py 拷过来改。

安装完成后就可以使用了,示例如下:

代码语言:javascript
复制
import tesserocr
from PIL import Image


img = Image.open('1.png')
result = tesserocr.image_to_text(img)
print(result)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-11-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档