前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >tesseract-ocr的使用

tesseract-ocr的使用

作者头像
搁浅同学
发布2022-07-21 14:55:34
1K0
发布2022-07-21 14:55:34
举报

Tesseract -v

——显示出tesseract的版本号则表示安装,及环境变量配置成功。否则根据提示检查安装失败原因

Tesseract的环境变量的设置:

  1. 配置环境变量Path中加入C:\ProgramFiles (x86)\Tesseract-OCR
  2. 新建变量TESSDATA_PREFIX,填入C:\Program Files (x86)\Tesseract-OCR\tessdata。

Tesseract工具没有可视化的界面使用,只能在命令行中使用。

用下面命令将图片转成txt文档:

——Tesseract 图片路径 结果文件名 -l 语言(语言英文为eng,简体中文为chi_sim)

与tesseract配套使用的是它的训练工具,需要安装java的jre。

训练工具的使用步骤如下:

  1. 修改图片格式为tif,文件名称为[lang].[fontname].exp[num].tif(lang为自定义字库,fontname为字体名)
  2. 打开jTessBoxEditorFX训练工具,tools下拉菜单下打开merge Tiff选择所有样本图片合成一个tif文件(normal.certificate.exp.tif)。
  3. 生成box文件:tesseract normal.certificate.exp.tif normal.certificate.exp -l chi_sim batch.nochopmakebox
  4. 在Box Editor窗口下打开刚生成的zlc.certificate.exp.tif,工具会自动关联到相对应的box文件。
  5. 使用tesseract生成.tr训练文件:tesseract normal.certificate.exp.tif normal.certificate.expnobatch box.train
  6. 生成字符集文件,执行完后会在当前目录生成名为“unicharset”的文件:unicharset_extractor.exe normal.certificate.exp.box
  7. 生成shape文件,执行完后生成shapetable和normal.unicharset两个文件:shapeclustering -F font_properties -U unicharset -O normal.unicharset normal.certificate.exp.tr
  8. 生成聚字符特征文件:mftraining -Ffont_properties -U unicharset -O normal.unicharset normal.certificate.exp.tr
  9. 生成字符正常化特征文件,会生成normproto文件:cntraining.exe normal.certificate.exp.tr
  10. 文件重命名:rename normproto zlc.normproto

rename inttemp normal.inttemp

rename pffmtable normal.pffmtable

rename shapetable normal.shapetable

11.生成zlc.traineddata文件combine_tessdata zlc.

12.将上一步生成的zlc.traineddata文件放入tessdata文件夹下面。

使用总结:使用自己训练的字库仍然准确不不高,该工具是根据明暗程度分辨字迹的。也有可能是我还未摸索到更好的使用方法。分享本篇文章是为了记录我摸索该工具的过程,也希望大家有更好的使用方法也可以评论出来。我们一起交流。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 暴走的软件测试Tester 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档