前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Tesseract-文字识别工具

Tesseract-文字识别工具

作者头像
悠扬前奏
发布2019-05-30 20:21:00
2.6K0
发布2019-05-30 20:21:00
举报

0. 背景

最近在准备一个爬虫项目,准备阶段了解到一个文字识别工具,用在验证码方面很方便。 现在主力开发机是mac,本文流程都是基于mac。

1 安装

2. 语言库

作为文字识别工具,需要安装识别的语言库。 下载需要的语言之后,放到/usr/local/Cellar/tesseract/3.05.01/share/tessdata路径下。 常用的如下:

库名

语言

chi_sim.traineddata

中文

chi_sim_vert.traineddata

中文精简集

eng.traineddata

英文

3.Tesseract的使用

  • 帮助文档
  • 默认使用
  • 指定语言
  • psm参数(page segmentation modes) help文档中的介绍如下

解释:

4. 字符训练

字符训练是一个很重要,也很复杂的话题。以后深入学习了单开话题进行补充。

5. Python库

安装好tesseract之后就可以在Python中通过库文件很方便的把这个功能做到程序中了。

  1. pip install pytesseract不多说。
  2. 简单的源码:
  1. 结果
  • 英文原图:

831524628903_.pic.jpg

  • 识别结果: Hello worldl
  • 中文原图:

891524629631_.pic.jpg

  • 识别结果: 2018年清明节工作 日历女口下图二

可见,英文识别还可以,中文适应度不是很高。对于左右结构的字识别能力较差。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.04.25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0. 背景
  • 1 安装
  • 2. 语言库
  • 3.Tesseract的使用
  • 4. 字符训练
  • 5. Python库
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档