前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Ubuntu的OCR识别软件包Tesseract

Ubuntu的OCR识别软件包Tesseract

作者头像
mythsman
发布2022-11-14 14:41:08
4.2K0
发布2022-11-14 14:41:08
举报
文章被收录于专栏:mythsman的个人博客

这个包据说是开源的OCR中非常好用的一个,在图像识别的领域里,tesseract-ocr引擎曾是1995年UNLV准确度测试中最顶尖的三个引擎之一。在1995年到2006年期间,它几乎没有什么改动,但是它可能仍然是现在最准确的开源OCR引擎之一。它会读取二进制的灰度或者彩色的图像,并输出文字。一个内建的tiff阅读器让它可以读取未压缩的TIFF图像,但是如果要读取压缩过的TIFF图像,它还需要一个附加的libtiff库。

下载

下载地址是:http://code.google.com/p/tesseract-ocr/downloads/list

这里有比较全的文档、源码、语言包等必要数据。当然我们主要是下载 tesseract-ocr-3.02.02.tar.gz 然后根据README进行配置编译。

当然,如果图方便也可以直接在ubuntu中用apt来下载:

代码语言:javascript
复制
$sudo apt-get install tesseract-ocr

安装

基本上按照README 的提示去做就可以了,不过有两点需要注意:

1、这里用的是autorun.sh进行的生成,需要执行aclocal命令,没有安装这个命令会报错。安装方法见aclocal的安装

2、在执行./configure的时候发现这个还需要一个依赖包leptonica,否则无法配置。这个包可以在这里下载。查看README直接安装即可。

语言包

除了下载源码,我们还需要下载语言包,根据需要可以在之前的页面中下载。下载后会得到一个tessdata文件夹,文件夹下有一堆的文件。

接下来我们只需要把这里的东西丢到/usr/local/share/tessdata 里去就可以了,这里保存的就是语言库。

测试

代码语言:javascript
复制
tesseract  b.png res

程序会生成res.txt 文件显示识别到的内容。

结果

测试了好多组数据,无论是规范的文字还是不规范的验证码,识别的效果都很不理想。。。看来这个东西还是没得用。。。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 下载
  • 安装
  • 语言包
  • 测试
  • 结果
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档