tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html实现,在这里感谢该文章的作者。

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。

Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.02

项目下载地址为:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字:

1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别)

tesseract-ocr-setup-3.02-02.exe.

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:

附录:

tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,

简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。

2、使用Tessract-OCR引擎识别验证码

打开DOS界面,输入tesseract:

如果出现如上输出,表示安装正常。

命令格式:

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

识别数字:

我准备了一张验证码123.png 手机号码的图片,放在F:IDOLa|目录下

运行的命令行如下,我自己的命令行工具做了属性调整背景是白色的。

表示识别后生成一个result123.txt 打开文件如下:

识别中文:

我准备了一张验证码234.png "中国识别测试"个字的图片,放在F:IDOLa目录下如图:

运行的命令行如下:

表示识别后生成一个result234.txt 打开文件如下:

识别中文和英文:

网上找了一张图片,有中文有英文的图片:

运行命令如下:

结果如下:中文识别还不是太好啊!

例如:

tesseract OCR.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdataconfigs 和 tessdatatessconfigs 目录下的文件夹。

原文发布于微信公众号 - 目标检测和深度学习(The_leader_of_DL_CV)

原文发表时间:2018-03-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏python学习之旅

Python网络爬虫笔记(四):使用selenium获取动态加载的内容

(一)  说明 上一篇只能下载一页的数据,第2、3、4....100页的数据没法获取,在上一篇的基础上修改了下,使用selenium去获取所有页的href属性值...

4356
来自专栏AI派

【极限操作】一行Python代码生成一个二维码

二维码在当今社会是一个很常见的功能,如何使用 Python 来生成二维码呢?这里我们借助 qrcode 工具来生成我们需要的二维码。

1121
来自专栏Android开发指南

Android如何缩减APK包大小

3035
来自专栏debugeeker的专栏

《coredump问题原理探究》windows版6.4节单继承

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xuzhina/article/detai...

781
来自专栏hotqin888的专栏

uparse展示视频时与bootstrap导航条冲突?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

872
来自专栏目标检测和深度学习

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

2872
来自专栏DeveWork

解决WordPress文章密码保护在首页(摘要)不起作用

如果你碰到这个问题,就说明你的主题还不够完善。是的,之前Devework主题也是这样,但现在已经修复了。这类问题都是,首页的文章上如果是摘要显示的或者截断输出的...

2688
来自专栏菩提树下的杨过

silverlight:DeepZoom版的图片局部放大效果

先上演示地址: http://images.24city.com/jimmy/DeepZoom/ 步骤: 1.先启动PhotoShop,利用自动等分切片功能把...

2038
来自专栏iOS122-移动混合开发研究院

实现iOS图片等资源文件的热更新化(一): 从Images.xcassets导出合适的图片

本文会基于一个已有的脚本工具自动导出所有的图片;最终给出的是一个从 Images.xcassets 到基于文件夹的精简 合适 的图片资源集的完整过程.难点在于从...

3309
来自专栏DeveWork

WordPress RSS Feed 优化/设置技巧六则

本站DeveWork.com 在之前已经分享过不少有关 RSS Feed 优化、设置技巧,今天在这里分享多篇来自网络上的文章,攫取相关重要内容,加上之前的汇总为...

1909

扫码关注云+社区

领取腾讯云代金券