专栏首页目标检测和深度学习tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html实现,在这里感谢该文章的作者。

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。

Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.02

项目下载地址为:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字:

1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别)

tesseract-ocr-setup-3.02-02.exe.

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:

附录:

tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,

简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。

2、使用Tessract-OCR引擎识别验证码

打开DOS界面,输入tesseract:

如果出现如上输出,表示安装正常。

命令格式:

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

识别数字:

我准备了一张验证码123.png 手机号码的图片,放在F:IDOLa|目录下

运行的命令行如下,我自己的命令行工具做了属性调整背景是白色的。

表示识别后生成一个result123.txt 打开文件如下:

识别中文:

我准备了一张验证码234.png "中国识别测试"个字的图片,放在F:IDOLa目录下如图:

运行的命令行如下:

表示识别后生成一个result234.txt 打开文件如下:

识别中文和英文:

网上找了一张图片,有中文有英文的图片:

运行命令如下:

结果如下:中文识别还不是太好啊!

例如:

tesseract OCR.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdataconfigs 和 tessdatatessconfigs 目录下的文件名.

本文分享自微信公众号 - 目标检测和深度学习(The_leader_of_DL_CV)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

    本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html实现,在这里感谢该文章的作者。 OCR(Opti...

    朱晓霞
  • VALSE 2018年度进展报告 | 物体检测与识别

    朱晓霞
  • 厉害了,我用“深度学习”写了个老板探测器(附源码)

    如果上班的时候想放松一下,或者直说想偷偷懒,看点和工作无关的网页,这时候万一老板突然出现在背后,会不会感到很难堪呢? 有的浏览器设置了boss按键,手快的人还可...

    朱晓霞
  • tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

    本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html实现,在这里感谢该文章的作者。 OCR(Opti...

    朱晓霞
  • [AIDL1][附PPT]山世光:从人脸识别看深度学习对计算机视觉的推动及挑战

    在由中国人工智能学会举办的第一期AIDL《人工智能前沿讲习班》上,国内著名人脸识别专家、中科院计算所山世光研究员畅谈了从人脸识别看深度学习对计算机视觉的推动及挑...

    马上科普尚尚
  • 腾讯应届程序员开到了50万年薪?网友:装的还挺像的!罗永浩:Face ID不是好东西;Facebook开源oomd

    不知道大家在大学毕业后,拿到的第一份工作年薪是多少呢?但在最近一网友透露,与他一同毕业的室友最近签了腾讯,而腾讯给出的年薪居然是50万!这是我看过的最高的应届生...

    程序员宝库
  • 搞定Markdown中的图片,一劳永逸的方法!

    经常用markdown写博客的朋友一定都体会过markdown图片的蛋疼之处,并不是说图片的这用引用方式不好,而且图片要放到什么服务器上?

    猫叔Rex
  • 【独家】一文读懂文字识别(OCR)

    前言 文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分 本文将以上图为主要线索,简要阐述在文字识别领域中的各个组成部...

    数据派THU
  • 开发网页时,127.0.0.1或者localhost能访问,而本机地址不能访问的解决

    ydymz
  • 来再对你的网站做一些优化吧

    我不是做前端的,所以对于Web设计和优化我只是通过搜索学习一点点,根据一些经验片面的记录一下我自己网站的一些优化工作,这里也分享一下。鄙视一下那些用脚趾头写代码...

    gigiwangs

扫码关注云+社区

领取腾讯云代金券