Tesseract Ocr文字识别

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。Tesseract目前已作为开源项目发布在Google Project.

运行环境:

windows10 + python 3.6 + tesseract 4.0.0-beta.1

先看效果: 

一、安装python模块

pip3 install pytesseract

二、安装tesseract orc

下载地址:https://github.com/UB-Mannheim/tesseract/wiki 点击“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”下载安装。

注意:安装的时候选中中文包。

本人安装目录:C:\Users\Administrator\AppData\Local\Tesseract-OCR

使用命令,查看版本号和支持语言:

cd C:\Users\Administrator\AppData\Local\Tesseract-OCR tesseract -v tesseract --list-langs  #查看Tesseract-OCR支持语言

三、配置tesseract运行文件

C:\Python36\Lib\site-packages\pytesseract\pytesseract.py 找到文件:

tesseract_cmd = 'tesseract'

修改为:

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

四、代码识别

from PIL import Image
import pytesseract

path = "img\\text-img.png"

text = pytesseract.image_to_string(Image.open(path), lang='chi_sim')
print(text)

作为非常优秀的Ocr识别库,tesseract当然可以训练自己的数据模型,从而达到为我所用目的,后续文字会介绍如果训练自己的文字识别库。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python中文社区

Keras 的 Web 填坑记

博客主页:https://www.zhihu.com/people/tu-dou-dou-27-10

48030
来自专栏IT大咖说

百度脑图解析:如何进行web复杂应用的渐进式开发

23020
来自专栏小文博客

腾讯云OCR文字识别“测评”

前不久有朋友为了方便工作,问我“怎么把图片中的文字提取出来”,我当时就想到手机QQ扫一扫刚好可以实现这个功能,就让他先将图片传到手机,然后再用手机QQ扫一扫 。

2.7K80
来自专栏程序员互动联盟

Bitmap那些事之基础知识

前言:本来我是做电视应用的,但是因为公司要出手机,人员紧张,所以就抽调我去支援一下,谁叫俺是雷锋呢! 我做的一个功能就是处理手机中的应用ICON,处理无非就是...

30360
来自专栏人人都是极客

第三课:把tensorflow,模型和测试数据导入Android工程

关于Android项目的创建这里就不做赘述了,我们直接进入主题,看下如何把机器学习库和训练的模型导入一个安卓应用中。 导入 Inference Interfac...

402120
来自专栏大数据文摘

纸质文档转可编辑电子版太复杂?那是你没看这份神器安装指南!

32920
来自专栏安恒信息

基于大数据分析的异常检测方法及其思路实例

1 概述 随着人类社会信息化程度的不断深入,信息系统产生的数据也在呈几何级数增长。对这些数据的深入分析可以得到很多有价值的信息。由于数据量太大以及数据属性的多样...

74160
来自专栏BestSDK

Dynamsoft Camera SDK 6.0发布,轻松捕捉图像和视频流

Dynamsoft Camera SDK提供了Java api,使您可以轻松地从浏览器兼容的USB视频类(UVC)网络摄像头捕捉图像和视频流。 ? 使用基于浏览...

37460
来自专栏王磊的博客

Tesseract Ocr文字识别

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年,Tesseract由美...

59590
来自专栏IT笔记

Dubbo负载均衡配置

在集群负载均衡时,Dubbo提供了多种均衡策略,缺省为random随机调用。 负载均衡扩展 (1) 扩展说明: 从多个服务提者方中选择一个进行调用。 (2) 扩...

51650

扫码关注云+社区

领取腾讯云代金券