首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 中文图片OCR

有个需求,需要从一张图片中识别出中文,通过python来实现,这种这么高大上黑科技我们普通人自然搞不了,去github找了一个似乎能满足需求开源库-tesseract-ocr: Tesseract...OCR引擎目前已作为开源项目发布在Google Project,其项目主页在这里查看https://github.com/tesseract-ocr, 它支持中文OCR,并提供了一个命令行工具。...python中对应包是pytesseract. 通过这个工具我们可以识别图片上文字。...如果要识别中文需要下载对应训练集:https://github.com/tesseract-ocr/tessdata ,下载”chi_sim.traineddata”,然后copy到训练数据集存放路径...速度比较慢,大家可以拿一张包含中文图片试验一下。

11.3K31

GitHub 项目推荐 | 轻量级中文 OCR

OCR 已经广泛地应用于身份认证、财税报销、文档电子化等场景。 项目地址在文末! 今天和大家介绍一个超轻量级中文 OCR 项目,目前这个项目已在 GitHub 上标星 6.7k。...本项目基于 chineseocr 与 psenet 实现中文自然场景文字检测及识别,支持竖排文字识别,支持 ncnn、mnn、tnn 推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet...第三方 Demo 根据本项目,基于 TNN 实现轻量级中文字符 ocr demo,支持 iOS 和 Android 系统,凭借 TNN 优化 CPU(ARMv7、ARMv8) 和 GPU(OpenCL...接下来我们来看下第三方应用效果。...Android 识别展示 .Net Demo 识别展示 第三方 TNN Demo 识别展示 从这些第三方应用上看这款轻量级 OCR 识别效果也很优秀。

2.8K10
您找到你想要的搜索结果了吗?
是的
没有找到

Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体识别率百分之百)—附Java源码、测试数据和训练集下载地址

OCR(Optical character recognition) —— 光学字符识别,是图像处理一个重要分支,中文识别具有一定挑战性,特别是手写体和草书识别,是重要和热门科学研究方向。...可惜国内科研院所,基本没有几个高识别率训练集——笔者联系过北京语言大学研究生一篇论文作者,他们论文说有%90正确识别率,结果只做了20个笔画简单汉字(20/6753 = %0.3 常用简体汉字千分之三...真的是为了论文而论文,而且很会选择样本(小而简单) 斯坦福大学有个工程项目,专门做中文汉字识别——欧美发达国家科研院所更有研究精神  提高识别率,训练集是关键!  提高识别率,训练集是关键!!  ...下载训练集—traineddata请移步: https://github.com/tesseract-ocr/tessdata 中文请选如下4个: chi_sim.traineddata (简体— 对于宋体...() 基于“chi_sim.traineddata ”— 即简体中文训练集 图1 转换效果如下: 【结论】 300dpi,识别率:%100 ---- 图2 转换效果如下: Brief history

2.9K20

tesseract-ocr 实现图片识别功能

1、Tesserac-ocr简介 [一个Google支持开源OCR图文识别开源项目。...去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。使用中Tesseract 识别率非常高。...可以在项目网站下载:http://code.google.com/p/tesseract-ocr,新版本支持中文,中文语言包定义http://code.google.com/p/tesseract-ocr...然后调用时候指明语言库即可,例如:tesseract xxx.jpg result -l chi_sim 照样,我们搞一个2.jpg图片,来测试下中文识别下识别率怎么样。 ?...,可以看到,识别率并不是十分令人满意。而且这边使用例子都是十分正规字体。如果遇到验证码那种不规则字体,识别率也会大打折扣

5.6K10

Tesseract-OCR 4.1.0 安装和使用— windows及CentOS

OCR(Optical character recognition) —— 光学文字识别,是图像处理一个重要分支,中文识别具有一定挑战性,特别是手写体和草书识别,是重要和热门科学研究方向 截止笔者发文...(2019.12.25),tesseract-ocr 最新发布稳定版本是4.1.0..../tessdata 中文请选如下4个: chi_sim.traineddata (简体— 对于宋体,像素>= 300dpi:识别率高达%100,同时对英文及阿拉伯数字识别率高达百分之90以上) chi_sim_vert.traineddata...language_model_ngram_on=1 其中,parer.png是源文件(图片,文件完整路径名请自行添加),paper是输出文件名(默认为txt文件); -l 指定训练集(chi_sim —— 简体中文....) yum install tesseract  中文包  yum install tesseract-langpack-chi_sim.noarch  训练文件位于  /usr/share/tesseract

3.2K20

Tesseract-OCR识别中文与训练字库实例

关于中文识别,效果比较好而且开源应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路。 文中所用到身份证图片资源是百度找,如有侵权可联系我删除。...一、准备工作 1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。 2、下载chi_sim.traindata字库。要有这个才能识别中文。...下好后,放到Tesseract-OCR项目的tessdata文件夹里面。 3、下载jTessBoxEditor,这个是用来训练字库。 以上几个在百度都能找到下载,就不详细讲了。...四、测试 1、把 normal.traineddata 复制到Tesseract-OCR 安装目录下tessdata文件夹中 2、识别命令: 1 tesseract mjorcen.normal.exp0...更新:没有错误的话命令行提示应该是这样 ?

3.8K20

python图片文本识别的简单实现

因为他们使用到很多python库文件,为了避免一个个工具安装,建议使用Anaconda. pytesser是谷歌OCR开源项目的一个模块,在Python中导入这个模块即可将图片中文字转换成文本。...import ImageEnhance image = Image.open(r"D:\workstation\driving_licence.jpg") #使用ImageEnhance可以增强图片识别率...,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识 下载地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup...,要下载一个中文包:https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata 然后找到tessdata目录,把eng.traineddata...替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata ok,现在中文识别基本达到90%以上了 问题一解决链接: PIL

2.8K40

EasyPR - 开源智能中文车牌识别系统

车牌识别,是人工智能以及 OCR 领域重要应用场景。...例如车牌为苏EUK722图片,它可以准确地输出std:string类型"苏EUK722"结果。 它识别率较高。图片清晰情况下,车牌检测与字符识别可以达到80%以上精度。...假设我们有如下原始图片,需要识别出中间车牌字符与颜色: 经过EasyPR第一步处理车牌检测(PlateDetect)以后,我们获得了原始图片中仅包含车牌图块: 接着,我们对图块进行OCR过程...当一副图中有大于n个车牌时,EasyPR最终只会输出可能性最高n个。 下面来看pr方法。...EasyPR 基于openCV,能够识别中文,且识别率较高,可以应用在实践中。 来源: https://www.toutiao.com/article/7084857257946579464/?

1.7K10

cnocr:用来做中文OCRPython3包,装上就能用!

cnocr是用来做中文OCRPython 3包。cnocr自带了训练好识别模型,安装后即可直接使用。 cnocr主要针对是排版简单印刷体文字图片,如截图图片,扫描件等。...安装真的很简单 pip install cnocr 请使用Python3 (3.4, 3.5, 3.6以及之后版本应该都行 可直接使用模型 cnocrocr模型可以分为两阶段:第一阶段是获得ocr图片局部编码向量...对于中文识别且识别困难(如文字比较模糊)场景,建议尝试模型 conv-lite-lstm。...对于简单中文识别场景,可以使用模型 densenet-lite-lstm 或 densenet-lite-fc ,或者利用自己训练数据对它们进行精调。...函数CnOcr.ocr(img_fp) 函数CnOcr.ocr(img_fp)可以对包含多行文字(或单行)图片进行文字识别。

3.3K30

GitHub 热榜:文字识别神器,超轻量级中文 OCR

整理 | AI 科技大本营 光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上试题。...近期,这个叫做 chineseocr_lite OCR 项目开源了,这是一个超轻量级中文 ocr,支持竖排文字识别,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) +...这个项目基于 chineseocr 与 psenet 实现中文自然场景文字检测及识别,环境是 linux/macos。...crnn\crnn_lite lstm\dense 识别(ocr-dense 和 ocr-lstm 是搬运 chineseocr ) 支持竖排文本识别 ncnn 实现 psenet(未实现核扩展...) ncnn 实现 crnn_dense (改变了全连接为 conv1x1) ncnn 实现 shuuflenev2 角度分类网络 ncnn 实现 ocr 整个流程 最近,项目作者对更新了可实现功能

2.7K10

cnocr:用来做中文OCRPython3包,装上就能用!

cnocr是用来做中文OCRPython 3包。cnocr自带了训练好识别模型,安装后即可直接使用。 cnocr主要针对是排版简单印刷体文字图片,如截图图片,扫描件等。...安装真的很简单 pip install cnocr 请使用Python3 (3.4, 3.5, 3.6以及之后版本应该都行 可直接使用模型 cnocrocr模型可以分为两阶段:第一阶段是获得ocr图片局部编码向量...对于中文识别且识别困难(如文字比较模糊)场景,建议尝试模型 conv-lite-lstm。...对于简单中文识别场景,可以使用模型 densenet-lite-lstm 或 densenet-lite-fc ,或者利用自己训练数据对它们进行精调。...函数CnOcr.ocr(img_fp) 函数CnOcr.ocr(img_fp)可以对包含多行文字(或单行)图片进行文字识别。

2.4K10

OCR技术】大批量构造中文文字训练集

放假了,终于可以继续可以静下心写一写OCR方面的东西。上次谈到文字切割,今天打算总结一下我们怎么得到用于训练文字数据集。...生成字体图像,存储在规定目录下。 适当数据增强。...首先在一个txt文件里写入你想要汉字,如果对汉字对应ID没有要求的话,我们不妨使用该汉字排位作为其ID,比如“一二三四五”中,五ID就是00005。...,[-rotate,rotate] --rotate_step 表示每次旋转间隔 生成这么一个3755个汉字数据集所需时间还是很久,估计接近一个小时。...额外图像增强 第三步生成汉字图像是最基本数据集,它所做图像处理仅有旋转这么一项,如果我们想在数据增强上再做多点东西,想必我们最终训练出来OCR模型性能会更加优秀。

6.2K61

ABBYY FineReader PDF15下载安装技巧

这时候,让我想到了这款牛逼OCR识别及PDF编辑软件:ABBYY FineReader。...他OCR识别率超级高,错字很少,真是工作中效率神器。ABBYY FineReader PDF 15是一款出名OCR文字识别工具,它包含文档转换、数据捕获等功能,文字识别率较高。...图片这里选择简体中文,然后点击确定。图片在接受许可协议这一行小字前打钩,然后点击下一步。图片然后再点击下一步。图片接着点击安装。图片等待任务完成。...可以把由PDF文档电子档转换而来文字,转换成其他格式为我们所用。更厉害是还可以直接扫描各种图片,将其中扫描到文字扫描至ocr编辑器转换成其他电子档。...好了,关于OCR文字识别工具ABBYY FineReader PDF 15 安装技巧就介绍到这里,

2K30
领券