[MachineLearning]tesseract使用

tesseract 项目

google的一个开源OCR项目,详情读项目README吧。

https://github.com/tesseract-ocr/tesseract

安装方法

https://github.com/tesseract-ocr/tesseract/wiki/Compiling-%E2%80%93-GitInstallation

首先安装相关库

apt-get install autoconf-archive automake g++ libtool libleptonica-dev make pkg-config

然后运行

cd tesseract-ocr
./autogen.sh
./configure
make
sudo make install
sudo ldconfig

在configure过程会报错:

configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.

查看本地安装的Leptonica发现是1.73版本。查资料发现如下解释,1.74需要下载源码编译。

Tesseract versions and the minimum version of Leptonica required: Tesseract Leptonica Ubuntu 4.00 1.74.2 Must build from source 3.05 1.74.0 Must build from source 3.04 1.71 Ubuntu 16.04 <http://packages.ubuntu.com/xenial/libtesseract3> 3.03 1.70 Ubuntu 14.04 <http://packages.ubuntu.com/trusty/libtesseract3> 3.02 1.69 Ubuntu 12.04 <http://packages.ubuntu.com/precise/libtesseract3> 3.01 1.67

安装leptonica 1.74

wget http://www.leptonica.com/source/leptonica-1.74.4.tar.gz

tar xvf leptonica-1.74.tar.gz
cd leptonica-1.74

./configure
make
sudo make install

成功后继续执行tesseract的安装。

运行tesseract

tesseract digits1.png result -l chi_sim

命令参数:

  • digits1.png 要识别的图片文件
  • result 保存识别结果的文件
  • -l chi_sim 选择识别的文字类别,chi是中文

报错:

Error opening data file /usr/local/share//tessdata/chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi_sim'
Tesseract couldn't load any languages!
Could not initialize tesseract.

需要设置data路径

export TESSDATA_PREFIX=/usr/local/share/tessdata/

然后从git@github.com:tesseract-ocr/tessdata.git 下载需要语言的data,中文就下载chi开头的文件。把data拷贝到TESSDATA_PREFIX路径下,再执行检测命令即可。

运行结果

0
电 话 18663778972
全 国 朝 号 2012127
&) H: 02 04 12 13 16 26

标 | 标标 _

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏嵌入式程序猿

带你看看飞思卡尔工程自动生成神器

精彩内容 飞思卡尔的工程自动生成器可以快速建立基于SDK的工程,让用户快速建立评估工程,提高开发速度,那么如何使用工程自动生成神器呢,今天就带来精彩内容 简介 ...

39070
来自专栏Java开发

搭建 ElasticSearch 2.4.6分布式集群

选取10.90.4.9这台机器做为client node,elasticsearch.yml中的配置如下:

21330
来自专栏我有一个梦想

Python 项目实践三(Web应用程序)第一篇

一 Djangao入门 当今的网站实际上都是富应用程序(rich application),就像成熟的桌面应用程序一样。Python提供了一组开发Web应用程序...

39560
来自专栏互联网杂技

利用机器学习把草图自动生成HTML

项目地址 https://github.com/ashnkumar/sketch-code 可以先clone到本地

19420
来自专栏我的博客

PHP命令行模式

1.PHP运行指定文件 php my_script.php php -f my_script.php 2.命令行直接运行php代码 php -r ‘pri...

35040
来自专栏CreateAMind

ls-gan bedroom数据集 pretrain model 和代码

pretrain model 和代码 https://pan.baidu.com/s/1dFbzjlZ pretrain 下载

12220
来自专栏优启梦

PHP配合javascript实现select快速设置默认值

今天在做一个select选中默认值的时候,不想用以前的老方法了,然后我就各种百度啊!

22060
来自专栏算法channel

完整教程:使用caffe测试mnist数据集

想要入门深度学习没有几个趁手的兵器是不行的,目前流行的框架tensorflow、pytorch、caffe等,笔者也是最近接触了caffe,发现caffe非常适...

17760
来自专栏windealli

浅谈协程

如果了解一些操作系统的相关知识的话,我们应该知道:进程是资源分配的最小单位,线程是CPU调度的最小单位。

511190
来自专栏Python小屋

使用Python分析最新2000封电子邮件的时间分布

程序功能:运行后要求输入126邮箱地址和密码,然后绘制柱状图显示最新2000封邮件的时间分布。

13220

扫码关注云+社区

领取腾讯云代金券