前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >两行python代码识别图片上文字

两行python代码识别图片上文字

作者头像
用户1359560
发布2019-03-15 11:27:47
1.7K0
发布2019-03-15 11:27:47
举报
文章被收录于专栏:生信小驿站

一、前言

Tesseract 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。 GitHub 地址:https://github.com/tesseract-... 安装包官方下载地址:https://digi.bib.uni-mannheim... 安装包百度云盘下载地址:https://pan.baidu.com/s/1AOsJ...

二、安装 Tesseract-OCR

直接执行下载好的 exe 文件,下一步、下一步默认安装即可。

三、配置环境变量

3.1 进入环境变量配置界面

右键点击此电脑--属性--高级系统设置--环境变量--系统变量--Path

3.2 添加系统变量

找到系统变量的 Path ,将 Tesseract-OCR 的安装目录添加进去:

3.3 添加 tessdata 系统变量

如下图新建系统变量 : TESSDATA_PREFIX 变量值为 tessdata 文件夹的路径(在Tesseract-OCR的安装目录下):

四、修改错误

经过上述步骤以后仍然会出现

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path。

这时需要修改D:\ProgramData\Anaconda3\Lib\site-packages\pytesseract\pytesseract.py里面的tesseract_cmd = 'tesseract'修改为你的tesseract.exe的所在的目录下比如:C:\Program Files (x86)\Tesseract-OCR\tesseract.exe 这样就可以运行了。

五、实例

代码语言:javascript
复制
# In[*]
import pytesseract
from PIL import Image
image = Image.open("C:\\Users\\czh\\Desktop\\pic.jpg")
# In[*]
code = pytesseract.image_to_string(image)
print(code)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.03.07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、安装 Tesseract-OCR
  • 三、配置环境变量
    • 3.1 进入环境变量配置界面
      • 3.2 添加系统变量
        • 3.3 添加 tessdata 系统变量
        • 四、修改错误
        • 五、实例
        相关产品与服务
        文字识别
        文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档