专栏首页Python进阶之路解决pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\\Program Files\\Tesseract-

解决pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\\Program Files\\Tesseract-

pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\Program Files\Tesseract-OCR\tessdata/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory. Failed loading language ‘chi_sim’ Tesseract couldn’t load any languages! Could not initialize tesseract.’)

报错信息

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files\\Tesseract-OCR\\tessdata/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.') 

解决办法

path = "img\\text-img.png"

testdata_dir_config = '--tessdata-dir "C:\\ProgramFiles\\Tesseract-OCR\\tessdata"'

textCode = pytesseract.image_to_string(Image.open(path), config=testdata_dir_config, lang='chi_sim') 

若不能使用,配置环境变量

Tesseract-OCR
C:\Program Files\Tesseract-OCR\tessdata 

安装 pytesseract 模块

pip install pytesseract -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

安装Tesseract OCR

下载地址:https://github.com/UB-Mannheim/tesseract/wiki 
点击“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”

下载安装。注意:安装的时候选中中文包(安装时把所有选项都勾上)。本人安装目录:C:\Program Files\Tesseract-OCR\tessdata

使用命令,查看版本号和支持语言:
cd C:\Program Files\Tesseract-OCR  
tesseract -v tesseract --list-langs -v tesseract --list-langs  # 查看Tesseract-OCR支持语言 

配置tesseract运行文件

...\Lib\site-packages\pytesseract\pytesseract.py 

找到文件:tesseract_cmd = 'tesseract'
修改为:tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'       你放tesseract.exe的路径

Github地址:https://github.com/UB-Mannheim/tesseract/wiki

识别中文时,如果还是报错,可以将中文包下载到本地。

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:https://blog.csdn.net/fyfugoyfa复制
如有侵权,请联系 yunjia_community@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

    github地址:https://github.com/tesseract-ocr/tesseract

    砸漏
  • python3 for win10X64

    注:不知道为啥我装python 3.5的时候蛋疼的选择了管理员安装,所以运行命令提示符的话也需要管理员权限。怎么操作就不说了。

    py3study
  • python使用tesseract-ocr完成验证码识别

    https://github.com/tesseract-ocr/tesseract

    transcai
  • tesseract安装及问题处理

    tesserocr.file_to_text函数的路径参数中不能有中文字符,否则就会报这个错。经测,在换入一个纯英文的路径后可以正常运行

    周小董
  • Python爬虫入门教程 55-100 python爬虫高级技术之验证码篇

    如果你是一个数据挖掘爱好者,那么验证码是你避免不过去的一个天坑,和各种验证码斗争,必然是你成长的一条道路,接下来的几篇文章,我会尽量的找到各种验证码,并且去尝试...

    梦想橡皮擦
  • 利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率

    前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率。

    黯然销魂掌
  • 【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码

    在日常办公或者学习中,往往存在这样一个工作场景,比如,“老王,我这里有一张图片,你把里面的文字信息给我整理出来”,都2021年了,你真的还在手敲图片文字信息么?...

    二爷
  • python3光学字符识别模块tesserocr与pytesseract的使用详解

    OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说...

    砸漏
  • 攻略|Tesseract5+VS2017+win10源码编译

    1. 下载最新的CPPAN版本。解压缩后,将cppan.exe所在的路径添加到系统变量中;

    OpenCV学堂
  • Tesseract 在 windows 下的安装及简单应用

    Tesseract 是一个开源的 OCR 引擎,可以识别多种格式的图像文件并将其转换成文本,最初由 HP 公司开发,后来由 Google 维护。下载地址:htt...

    丹枫无迹
  • tesserocr:第三方模块tesserocr安装

    tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tess...

    新码农
  • python下调用pytesseract识别某网站验证码

    pytesseract最新版本0.1.6,网址:https://pypi.python.org/pypi/pytesseract

    黯然销魂掌
  • Sqlite 3 command ref

    - Download and drop the sqlite3.exe into system folder, like c:\windows

    py3study
  • Salesforce的Data Loader命令行-解决常见错误

    Data Loader是一个Salesforce提供的本地工具可以用来insert, upsert, update,导出和删除数据。

    臭豆腐
  • 编译hbase-1.2.3源代码

    确保机器可以正常访问Internet,如能正常访问https://repo.maven.apache.org等,如果是代理方式则需要设置好eclipse和m...

    一见
  • Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码、测试数据和训练集下载地址

     OCR(Optical character recognition) —— 光学字符识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草...

    NaughtyCat
  • Writing device drivers in Linux: A brief tutorial

    “Do you pine for the nice days of Minix-1.1, when men were men and wrote their o...

    RainMark
  • HLS合成为一整个视频拓展篇

    M3U8视频下载完成之后, 会有一个索引文件加上N多个分片文件, 这样我们想拷贝整个M3U8文件就会很麻烦, 而且M3U8索引文件中会定义分片文件的位置, 如果...

    马上就说
  • Python实现实时截图文字内容识别OCR 图片内容转文本

    一般大家都用过“OCR”文字提取工具,不知道大家有没有注意,最近QQ给表情包提供了OCR文字识别功能,只要你把有文字的表情包点开,一般QQ会把识别...

    啤酒单恋小龙虾

扫码关注云+社区

领取腾讯云代金券