首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Tesseract-OCR识别中文与训练字库实例

关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路。 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除。...一、准备工作 1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。 2、下载chi_sim.traindata字库。要有这个才能识别中文。...下好后,放到Tesseract-OCR项目的tessdata文件夹里面。 3、下载jTessBoxEditor,这个是用来训练字库的。 以上的几个在百度都能找到下载,就不详细讲了。...得到训练好的字库。....jpg mjorcen.normal.exp0 -l normal 3、效果 对比: 总结:肯定要自己训练过后的字库识别效果好,接下来要把整个项目弄进android,还要研究怎么将多个字库合并成一个字库

3.7K20
您找到你想要的搜索结果了吗?
是的
没有找到

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

.exe Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字: 1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别) tesseract-ocr-setup...附录: tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。...如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,...例如: tesseract OCR.jpg result -l chi_sim -psm 7 nobatch -l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata...目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata) -psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率

8K70

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

.exe Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字: 1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别) tesseract-ocr-setup...附录: tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。...如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,...例如: tesseract OCR.jpg result -l chi_sim -psm 7 nobatch -l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata...目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata) -psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率

8.4K20

Tesseract OCR初探

其安装目录中的 tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。...如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件....简体中文字库文件下载地址为:http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz 下载完成后解压,然后将该文件剪切到tessdata...psm 7 nobatch -l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata...下载文字库 在手机中SD卡添加/mnt/sdcard/tesseract/tessdata路径,并且传入C:\Program Files (x86)\Tesseract-OCR\tessdata路径下的

6.9K11

按键精灵二三事系列第九篇——图文识别+发邮件

按上图的11,22,33,44,55,66顺序操作,11先抓一个文字或数字(也可以ctrl+1启动,跟按键抓抓以及聊天截图有点类似),然后22上方、新建一个自己的字库文件,接着33点一下取色,移动到44...点55的提取,二值化区域就会有个处理好的白色6了,点66处的按钮,就制作好了有一个数字的字库。同理,可以把另外9个数字外加小数点,也做出来,于是就有了一个数字库。...大漠插件OCR的原理,就是通过转换目标文字的色值,如有多个色值,可以讲其全部转换成白色,再通过白色值进行对比校验,判别白色值的点阵形状是否跟预设文字一致(比如按比例判别,符合度90%就算,当然也可以要求...100%) 字库有了,接下来就是文字识别了,很简单,大漠综合工具22左边有Ocr的按钮,点一下,就get到了图文识别的命令,一共有5行: set dm = createobject("dm.dmsoft...base_path = dm.GetBasePath() dm_ret = dm.SetPath(base_path) dm_ret = dm.SetDict(0,"dm_soft.txt") s = dm.Ocr

4K31

shell编程字库裁剪(1)——想法

很多带有点阵液晶的硬件项目可能需要显示汉字、ASCII字符,有的廉价的液晶里没有字库,有的液晶里带有了字库但可能需要其他字体的支持。这种时候我们就需要使用外置的字库了。...SOC上的flash一般尺寸相对很小,几百K的字库很可能超标,甚至本身就没这么大。那么在这种情况下,如果还想使用字库,只好对字库进行裁剪,这也是笔者这个主题的背景情况。...如果是完整的汉字字库,那么显示汉字可以直接根据GB2312码来算出二进制编码,这个可以在baidu里面搜索GB2312字库的偏移,里面可以查到很多文章可以说明GB2312字库的偏移,细节不在这里讨论。...直接写结果,GB2312的编码为两个字节,假设某个汉字的GB2312编码第一个字节为GBH,第二个字节为GBL,并且每个汉字字体在字库中的大小为s,那么这个汉字在字库中的偏移为   offset = [...如果要用到繁体字,那么可以采用GBK编码和GBK字库,公式类似,本文只考虑GB2312。

74790

Android使用Tesseract-ocr进行文字识别

前言 Tessseract是一款由HP实验室开发由 Google 维护的开源 OCR(Optical Character Recognition , 光学字符识别)引擎。能够支持中文十分难得。...Tesseract-OCR下载地址 文字识别一般都用的tesseract-ocr。...GitHub:https://github.com/tesseract-ocr/tesseract 我们今天在Android上应用推荐的有个tess-two GitHub:https://github.com...拷贝字库文件进Android设备 我们利用Device File Explorer打开我们的虚拟机,将chi_sim.traineddata的字库文件拷贝到mnt/sdcard/tesserart/tessdata...上图中mTess.init这个要重点说一下,我们开始的DATAPATH的路径是mnt/sdcard/tesserart,在拷贝字库文件时我们下面还创建了一个tessdata的文件夹才拷进去了,如果你这里设置为

9.1K40

OCR Tool PRO Mac(OCR光学字符识别)

推荐这款OCR光学字符识别工具OCR Tool PRO,以卓越的准确性和速度从图像和 PDF 中提取文本。...抓取图像 + PDF + 抓取屏幕区域 + 从 iPhone/iPad 捕获图像 + 设置 + OCR + 将文本复制到剪贴板 + 使用文本文件和 PDF 导出!...OCR Tool PRO Mac图片OCR Tool PRO版软件功能OCR 工具允许在选定区域中捕获具有任何文本的屏幕的一部分。它可以立即被识别并复制到剪贴板。...OCR 工具是一种简单、易于使用、超级高效且尊重您的隐私(不会从您的设备中获取数据)。...主要特点抓取屏幕区域以实现超高效的 OCR多次抓取屏幕区域以快速工作从 iPhone/iPad 和扫描仪捕获图像以进行即时 OCR 并将结果复制到剪贴板。

16.2K20

OCR技术简介

OCR的应用场景 根据识别场景,可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如现今方兴未艾的证件识别和车牌识别就是专用OCR的典型实例。...OCR的技术路线 典型的OCR的技术路线如下图所示 其中影响识别准确率的技术瓶颈是文字检测和文本识别,而这两部分也是OCR技术的重中之重。...在传统OCR技术中,图像预处理通常是针对图像的成像问题进行修正。...[11] 端到端的OCR 与检测-识别的多阶段OCR不同,深度学习使端到端的OCR成为可能,将文本的检测和识别统一到同一个工作流中。...[12] 总结 尽管基于深度学习的OCR表现相较于传统方法更为出色,但是深度学习技术仍需要在OCR领域进行特化,而其中的关键正式传统OCR方法的精髓。

15.9K20

OCR技术综述

最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。 什么是OCR?...比如汉王OCR,百度OCR,阿里OCR等等,很多企业都有能力都是拿OCR技术开始挣钱了。...太多太多的应用了,OCR的应用在当今时代确实是百花齐放啊。 OCR的分类 如果要给OCR进行分类,我觉得可以分为两类:手写体识别和印刷体识别。...OCR流程 现在就来整理一下常见的OCR流程,为了方便描述,那就举文档中的字符识别为例子来展开说明吧。...针对传统OCR解决方案的不足,学界业界纷纷拥抱基于深度学习的OCR。 这些年深度学习的出现,让OCR技术焕发第二春。

13.9K92
领券