Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >python人工智能-图像识别

python人工智能-图像识别

作者头像
先知先觉
发布于 2019-01-21 08:07:56
发布于 2019-01-21 08:07:56
3.4K00
代码可运行
举报
运行总次数:0
代码可运行

一、安装库

首先我们需要安装PIL和pytesseract库。 PIL:(Python Imaging Library)是Python平台上的图像处理标准库,功能非常强大。 pytesseract:图像识别库。

我这里使用的是python3.6,PIL不支持python3所以使用如下命令

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install pytesseract
pip install pillow

如果是python2,则在命令行执行如下命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install pytesseract
pip install PIL

这时候我们去运行上面的代码会发现如下错误:

错误提示的很明显: No such file or directory :”tesseract”

这是因为我们没有安装tesseract-ocr引擎

二、tesseract-ocr引擎

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统。对于我们程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。这两天我查找了很多免费OCR软件、类库,特地整理一下,今天首先来谈谈Tesseract,下一次将讨论下Onenote 2010中的OCR API实现。可以在这里查看OCR技术的发展简史。 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。 数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

安装tesseract-ocr引擎

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
brew install tesseract

然后我们通过tesseract -v看一下是否安装成成功

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
tesseract 3.05.01
leptonica-1.75.0
libjpeg 9b : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11

这时候我们运行上面代码会出现乱码

这是因为tesseract默认只有语言包中没有中文包,如下图:

安装tesseract-ocr语言包

我们去GitHub下载我们需要的语言包,这里我只下载了chi_tra.traineddatachi_sim.traineddata github:tesseract-ocr/tessdata 然后放到/usr/local/Cellar/tesseract/3.05.01/share/tessdata路径下面。

可以通过tesseract --list-langs查看本地语言包:

可以通过tesseract --help-psm 查看psm

0:定向脚本监测(OSD) 1: 使用OSD自动分页 2 :自动分页,但是不使用OSD或OCR(Optical Character Recognition,光学字符识别) 3 :全自动分页,但是没有使用OSD(默认) 4 :假设可变大小的一个文本列。 5 :假设垂直对齐文本的单个统一块。 6 :假设一个统一的文本块。 7 :将图像视为单个文本行。 8 :将图像视为单个词。 9 :将图像视为圆中的单个词。 10 :将图像视为单个字符。

为什么这里要强调语言包和psm,因为我们在使用中会用到, 比如多个语言包组合并且视为统一的文本块将使用如下参数: pytesseract.image_to_string(image,lang="chi_sim+eng",config="-psm 6") 这里我们通过+来合并使用多个语言包。

接下来我们看一下配置好一切的正确结果。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pytesseract
from PIL import Image

image = Image.open("../pic/c.png")
code = pytesseract.image_to_string(image,lang="chi_sim",config="-psm 6")
print(code)

此时大公告成。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年01月24日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
四行Python代码,你也能从图片上识别文字!
图像识别、文字识别,这些都是现在比较火的东西,现在大部分的AI都有在做这些东西,那我们就过来了解一下吧!
我被狗咬了
2019/09/23
2.3K0
四行Python代码,你也能从图片上识别文字!
如何利用pytesseract库识别图形验证码 【python爬虫入门进阶】(15)
能提取图片中的文字的技术,将图片翻译成文字的技术一般被称为光学文字识别(Optical Character Recognition) 简写为OCR。而tesseract是一个OCR库,由谷歌赞助,是一个比较优秀的图像识别开源库。它具有很高的识别度,也具有很高的灵活性,可以通过训练识别任何字体。 tesseract库的官方文档
码农飞哥
2022/03/31
1.7K0
如何利用pytesseract库识别图形验证码 【python爬虫入门进阶】(15)
Tesseract-文字识别工具
最近在准备一个爬虫项目,准备阶段了解到一个文字识别工具,用在验证码方面很方便。 现在主力开发机是mac,本文流程都是基于mac。
悠扬前奏
2019/05/30
2.7K0
Python Tesseract 图片识别-小操练
but,Tesseract是老外开发的,默认不支持中文,需要我们加个中文语言包 将文件chi_sim.traineddata (密码:nd6p) 放到安装目录:Tesseract-OCR\tessdata文件夹内,再整张图
Mshu
2018/10/31
1.4K0
Python人工智能之图片识别,Python3一行代码实现图片文字识别
自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定
致Great
2023/08/25
2K0
Python人工智能之图片识别,Python3一行代码实现图片文字识别
Python中的文字识别利器:pytesseract库
在数据处理和计算机视觉领域,光学字符识别(OCR)是一项非常有用的技术。它可以将图片中的文字提取出来,让我们更方便地进行信息处理。
南山竹
2024/11/07
1.6K0
Python中的文字识别利器:pytesseract库
Python 图片识别 OCR
文章目录 Python 图片识别 OCR #1 需求 #2 环境 #3 安装 #3.1 macOS #3.2 Linux(CentOS) #4 使用 #4.1 python安装pytesseract库 #4.2 Python代码 #5 在线案例 Python 图片识别 OCR #1 需求 识别图片中的信息,如二维码 #2 环境 macOS / Linux Python3.7.6 #3 安装 #3.1 macOS 安装 tesseract //只安装tesseract,不安装训练工具 brew install
Autooooooo
2020/11/07
17K0
Python 中文图片OCR
有个需求,需要从一张图片中识别出中文,通过python来实现,这种这么高大上的黑科技我们普通人自然搞不了,去github找了一个似乎能满足需求的开源库-tesseract-ocr: Tesseract的OCR引擎目前已作为开源项目发布在Google Project,其项目主页在这里查看https://github.com/tesseract-ocr, 它支持中文OCR,并提供了一个命令行工具。python中对应的包是pytesseract. 通过这个工具我们可以识别图片上的文字。 笔者的开发环境如下: ma
巫山老妖
2018/07/20
11.5K1
JAVA——Tess4J简单的图像识别DEMO
2、在任意地方创建一个文件夹tessdata,将下载的chi_sim.traineddata 和 eng.traineddata语言包存放在该目录下,也可以直接存放到自己项目的resources/tessdata目录下。
全栈程序员站长
2022/09/05
2.1K0
JAVA——Tess4J简单的图像识别DEMO
提取图片内容的 Python 程序
要编写一个提取图片内容的 Python 程序,可以使用 OCR(光学字符识别)技术。常用的库是 pytesseract,它结合了 Tesseract OCR 引擎。本次需求是使用python程序读取指定文件夹中的图片,提取图片中的文字内容,并且将提取的内容生成txt档案,txt档案与识别的图片单独放在一个文件夹中。由于图片中的内容是中文,还需要下载安装chi_sim.traineddata文件
易辰君
2024/11/07
3550
爬取微信公众号所有历史文章 - (03) python结合tesseract-ocr做图文识别
前面我们讲到了adb的封装,里面具体讲到到了在一副图片中寻找目标的坐标并点击。这篇文章我们讲讲对一副图片的特定区域做截取,并利用开源库做图纹识别。
efonfighting
2019/08/02
1.5K0
爬取微信公众号所有历史文章 - (03) python结合tesseract-ocr做图文识别
一行代码扫出“敬业福”
好吧,我承认有那么一点标题党。不过说起标题党这事儿,咱先来看看支付BAO,最近几天搞得全国人民都不安心工作的“集五福”: 好(shua)好(hou)的“集五福”活动,怎么又叫 AR 了? 我们来让李老
Crossin先生
2018/04/17
1.4K0
一行代码扫出“敬业福”
OCR图像识别初体验(一)
python使用库:PIL pytesseract 主要辅助识别程序:Tesseract-OCR 个人踩坑经历-实测有效 代码块:
诡途
2022/05/09
9150
OCR图像识别初体验(一)
解决pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\\Program Files\\Tesseract-
Github地址:https://github.com/UB-Mannheim/tesseract/wiki
叶庭云
2021/12/07
3.5K0
解决pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\\Program Files\\Tesseract-
python 技术篇-3行代码搞定图像文字识别,pytesseract库实现
我们需要 pillow 和 pytesseract 这两个库,pip install 安装就好。 还需要安装 Tesseract-OCR.exe 然后配置下就好了。 具体的环境配置方法请看 python 技术篇-使用pytesseract库进行图像识别之环境配置
小蓝枣
2020/09/23
1.7K0
看完复旦博士用Python统计核酸结果后,我照着也写了一个
前几天,人民日报公众号报道了复旦博士生自己写代码,通过OCR和正则表达式统计核酸截图结果。具体文章见:https://mp.weixin.qq.com/s/l8u9JifKDlRDoz32-jZWQg
卷福同学
2023/04/28
2870
看完复旦博士用Python统计核酸结果后,我照着也写了一个
python 验证码识别库pytesse
pytesseract只是tesseract-ocr的一种实现接口。所以要先安装tesseract-ocr(大名鼎鼎的开源的OCR识别引擎)。
py3study
2020/01/17
1.8K0
图像识别 | 使用 Java 实现AI人工智能技术-图像识别功能
说到语音识别、语音翻译、图像识别、人脸识别等等,现在已经非常非常非常普及了,看过‘最强大脑’的朋友,也应该对‘小度’这个机器人有所了解,战胜国际顶尖的‘大脑’- 水哥,(PS:内幕不知),那么今天,我们来看下关于图像识别,是如何做到的,Java又是如何识别图像的?
码神联盟
2018/07/30
12.2K0
图像识别  | 使用 Java 实现AI人工智能技术-图像识别功能
[AI测试]python文字图像识别tesseract
github官网:https://github.com/tesseract-ocr/tesseract
梦无矶小仔
2023/09/08
1.3K0
[AI测试]python文字图像识别tesseract
小妙招:让图像会说话,字字清晰
人对图像的感知能力很强,所以图文很多,但是我们的认知却更多的用文字去传达;所以我们常常苦恼:
herain
2022/04/27
1.1K0
小妙招:让图像会说话,字字清晰
推荐阅读
相关推荐
四行Python代码,你也能从图片上识别文字!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档