专栏首页生信小驿站两行python代码识别图片上文字

两行python代码识别图片上文字

一、前言

Tesseract 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。 GitHub 地址:https://github.com/tesseract-... 安装包官方下载地址:https://digi.bib.uni-mannheim... 安装包百度云盘下载地址:https://pan.baidu.com/s/1AOsJ...

二、安装 Tesseract-OCR

直接执行下载好的 exe 文件,下一步、下一步默认安装即可。

三、配置环境变量

3.1 进入环境变量配置界面

右键点击此电脑--属性--高级系统设置--环境变量--系统变量--Path

3.2 添加系统变量

找到系统变量的 Path ,将 Tesseract-OCR 的安装目录添加进去:

3.3 添加 tessdata 系统变量

如下图新建系统变量 : TESSDATA_PREFIX 变量值为 tessdata 文件夹的路径(在Tesseract-OCR的安装目录下):

四、修改错误

经过上述步骤以后仍然会出现

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path。

这时需要修改D:\ProgramData\Anaconda3\Lib\site-packages\pytesseract\pytesseract.py里面的tesseract_cmd = 'tesseract'修改为你的tesseract.exe的所在的目录下比如:C:\Program Files (x86)\Tesseract-OCR\tesseract.exe 这样就可以运行了。

五、实例

# In[*]
import pytesseract
from PIL import Image
image = Image.open("C:\\Users\\czh\\Desktop\\pic.jpg")
# In[*]
code = pytesseract.image_to_string(image)
print(code)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言之生信(12)一分钟学会绘制cox/meta森林图

    这一类三线表的数据来源和如何绘制,在我前期的视频中已经做过了。有兴趣的可有看一下R语言与生信系列①R入门与临床三线表绘制。但是我们有时需要绘制稍微高级一点...

    用户1359560
  • 机器学习总揽①

    用户1359560
  • R语言字符串处理①R语言字符串合并与拆分

    用户1359560
  • 008.Kubernetes二进制部署Nginx实现高可用

    控制节点的 kube-controller-manager、kube-scheduler 是多实例部署,所以只要有一个实例正常,就可以保证高可用;

    木二
  • 十亿元背后的价值

    织云平台团队
  • 小变量大学问 干了这杯全家桶

    学习就要不断的复习和总结,才能让学过的知识不断的得到沉淀,变成自己的知识,切勿心浮气躁,囫囵吞枣。

    用户5745563
  • Irssi: 命令行下的 IRC 客户端

    IRSSI 是一款优秀的命令行下的 IRC 客户端,支持常见的操作系统,包括Windows、Mac OSX,Debian、RHEL等系统。本文介绍如何在Debi...

    Debian社区
  • hdu1007

    @坤的
  • pytesseract库的安装和使用

    在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的p...

    py3study
  • 前端之 CSS 知识点回顾

    <p>标签内的文字的颜色是red,优先级相等的时候与文件中样式定义的先后顺序有关,即是后面的覆盖前面的,与在class定义中的先后关系无关。

    IT技术小咖

扫码关注云+社区

领取腾讯云代金券