专栏首页机器学习入门与实战Python实现图片中英文信息识别

Python实现图片中英文信息识别

1.说明

1)Python版本:3.x

2)安装PIL、pytesseract

3)安装识别引擎tesseract-ocr

4)测试两张图片,denggao.jpg(中文信息)、test.jpg(英文信息)

2.安装操作

1)进入cmd界面,执行以下两行命令,进行PIL和pytesseract的安装(界面可看安装进度条):

pip install PIL

pip install pytesseract

2)测试安装成功与否,在Python界面执行以下语句,不报错即安装成功:

from PIL import Image

import pytesseract

3.安装好PIL和pytesseract之后,运行下面代码:

# # 对于中文信息的提取,需要加lang='chi_sim',调用中文词库

from PIL import Image

import pytesseract

text=pytesseract.image_to_string(Image.open('C:\\Users\\Administrator\\Desktop\\denggao.jpg'),lang='chi_sim')

print(text

报这样的错误,原因包含2个:其一,图片路径错误;其二,没有安装识别引擎tesseract-ocr。

我们进行原因排查,运行下面代码:

如果not such file则表示物理路径出错了,如果能浏览到图片,则表示路径没问题,可以看到:

在确认物理地址读取没有问题之后,如果执行前面获取信息的语句仍然报错,那么原因就可以锁定为没有安装识别引擎tesseract-ocr。

4.安装识别引擎tesseract-ocr 1)下载下面的安装包,然后直接点击安装即可: http://download.csdn.net/download/qq_40426415/10237320

2)解压安装tesseract-ocr后做如下操作,就可以支持中文识别了。因为 tesseract-ocr默认不支持中文识别。

3)安装完成tesseract-ocr后,我们还需要做一下配置 方法1:

方法2:

在Python变成页面,Ctrl+鼠标右键,选择import pytesseract中的pytesseract,快速打开pytesseract.py进行路径修改;

5.至此我们所有的配置就完成了,运行下面代码就可以从图片中解析出中文信息和英文信息了

————————————————

原文链接:https://blog.csdn.net/qq_40426415/article/details/79239240

本文分享自微信公众号 - 机器学习入门与实战(datanlp)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 逻辑回归(LR),损失函数

    逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,怎么进行分类呢?不用担心,伟大的数学家已经...

    大数据技术与机器学习
  • 随机森林(RF),Bagging思想

    Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,...

    大数据技术与机器学习
  • 用Python实现SVM多分类器

    支持向量机(SVM)——分类预测,包括多分类问题,核函数调参,不平衡数据问题,特征降维,网格搜索,管道机制,学习曲线,混淆矩阵,AUC曲线等

    大数据技术与机器学习
  • function*/生成器函数

    function*语句允许你声明一个生成器函数,这种函数的返回值是一个Generator对象,它允许你控制函数的暂停、继续执行。这种同步操作允许我们使用Java...

    gojam
  • ApiPost自动化测试基础之:接口参数依赖的情景处理

    在《ApiPost环境变量之第1课》里,我们介绍了什么是ApiPost环境变量,并如何定义、使用它。

    骑马的少年
  • 还不会用JWT?咱们通过单点登录来熟悉下

    JSON Web Token(JWT)是目前最流行的跨域身份验证解决方案之一,今天我们一起来揭开它神秘的面纱!

    程序员小跃
  • Python入门3-变量1

    读取时可使用breakfast[0],breakfast[1],breakfast[2]

    py3study
  • 让Pig在风暴中飞驰——Pig On Storm

    1以PigOnStorm直面实时应用开发面的挑战 在TRC(Tencent Realtime Computing)系统中TDProcess负责为各个应用提供实时...

    腾讯大数据
  • HTML5选择器

    注意:IE6-8不支持":checked",":enabled",":disabled"这三种选择器。著作权归作者所有。

    踏浪
  • [认证授权] 2.OAuth2授权(续) & JWT(JSON Web Token)

    1 RFC6749还有哪些可以完善的? 1.1 撤销Token 在上篇[认证授权] 1.OAuth2授权 中介绍到了OAuth2可以帮我们解决第三方Client...

    blackheart

扫码关注云+社区

领取腾讯云代金券