Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >OCR纠错算法

OCR纠错算法
EN

Stack Overflow用户
提问于 2011-04-13 22:32:35
回答 2查看 6.5K关注 0票数 22

我正在将大量扫描的文档数字化,使用Tesseract 3作为我的OCR引擎。它的输出质量一般,因为它经常在实际文本之前和之后生成垃圾字符,以及文本中的拼写错误。

对于前一个问题,似乎必须有一些策略来确定哪些文本实际上是文本,哪些文本不是(这些文本的大部分是人名之类的东西,所以我正在寻找解决方案,而不是在字典中查找单词)。

对于拼写错误问题,大多数错误源于一些字母的错误分类(例如,将l1I相互替换),而且似乎应该有一些方法来猜测哪些单词拼写错误(因为在英语中中间有"1“的单词并不多),并猜测适当的更正是什么。

这一领域的最佳实践是什么?有没有做这类事情的算法的免费/开源实现?谷歌已经发表了很多论文,但没有多少具体的内容。如果没有可用的实现,那么众多论文中的哪一篇将是一个很好的起点?

EN

回答 2

Stack Overflow用户

发布于 2012-04-24 12:14:38

对于“确定哪些文本实际上是文本,哪些文本不是文本”,您可能希望查看来自开发Tesseract ( ISRI)的同一部门的rmgarbage。我已经写了一个Perl implementation,还有一个Ruby实现。对于1vs.l的问题,我尝试使用their original source可用的ocrspell (同样来自同一个部门)。

我只能发布两个链接,所以缺少的是:

  • ocrspell:在dx.doi.org]
  • rmgarbage:搜索中输入"10.1007/PL00013558“,查找"Automatic Removal of垃圾Strings in OCR Text: An Implementation"
  • ruby implementation:search for "docsplit textcleaner"
票数 13
EN

Stack Overflow用户

发布于 2011-05-24 14:03:58

可能对你有用的是尝试this free online OCR,并将其结果与您的结果进行比较,看看是否可以通过播放图像(例如,放大/缩小)来改善结果。

我使用它作为我自己使用tesseract时应该得到的结果的“上限”(在使用OpenCV修改图像之后)。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5656462

复制
相关文章
中文文本纠错算法实现
文本纠错又称为拼写错误或者拼写检查,由于纯文本往往来源于手打或者OCR识别,很可能存在一些错误,因此此技术也是一大关键的文本预处理过程,一般存在两大纠错类型。
机器学习AI算法工程
2020/07/03
2.8K0
中文文本纠错算法实现
大盘点|OCR算法汇总
介绍了一种基于旋转的新颖网络框架,用于自然场景图像中面向任意方向的文本检测。论文的主要思想为旋转区域提案网络(RRPN),该网络旨在生成带有文本方向角度信息的倾斜proposal,并将角度信息用于边界框回归,以使proposal在方向方面更准确地适合文本区域。除此之外,还提出了旋转兴趣区域(RRoI)池化层,以将任意方向的proposal投影到feature map上供分类器进行分类。与以前的文本检测系统相比,基于region proposal的体系结构确保了面向任意方向的文本检测的计算效率。
3D视觉工坊
2020/12/11
2.5K0
大盘点|OCR算法汇总
中文文本纠错算法走到多远了?
错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误, 整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;
悟乙己
2019/05/26
7K0
​合合信息对于文本纠错:提升OCR任务准确率的方法理解
近年来深度学习在OCR领域取得了巨大的成功,但OCR应用中识别错误时有出现。错误的识别结果不仅难以阅读和理解,同时也降低文本的信息价值。在某些领域,如医疗行业,识别错误可能带来巨大的损失。因此如何降低OCR任务的错字率受到学术界和工业界的广泛关注。合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。文本纠错方法可包括基于CTC解码和使用模型两种方式,下面分别对这两种纠错方式进行介绍。
合合技术团队
2022/08/26
8460
​合合信息对于文本纠错:提升OCR任务准确率的方法理解
OCR算法识别性能评估
评估OCR算法识别率的指标通常有这几种: one 全对准确率:每张图片版面上有多个文本时候,每个文本都对的张数占总的张数的比例; 标签全对准确率:每张图片版面上有多个文本时候,文本对的个数占总的文本个数的比例; 平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况; 字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况; 字符识别召回率,即识别对的字符数占实际字符数的比例,可
用户3578099
2020/11/03
6K0
ECC(指令纠错) 内存
对于大多数企业来说,消除数据损坏是一项关键任务——这正是 ECC(纠错码)内存的目的。 ECC 是一种指令纠错技术,能够检测并纠正常见的各种内存数据损坏情况,即Error Checking and Correcting。
斯武丶风晴
2019/12/16
4.6K0
纠错码简介
引出 网络中的通信基于TCP和UDP两个通信协议, 这大家都知道的, 什么TCP的三次握手等等, 面试经常被问到. 三次握手是为了保证连接的正确建立. 但是, 在通信的时候, 你如何保证你的消息正确送
烟草的香味
2020/05/14
9210
组装结果纠错
由于三代 nanopore 测序质量比较低,原始数据中存在大量测序错误,即使拼接前进行了纠错,组装结果中仍会存在错误,用长读长或短读长的数据对组装结果进行矫正可以,提高准确率,减少 Miscalls,Indels,改善由错装(mis-assemblies)导致的低比对区域。因此,序列拼接完需要对拼接结果进行优化,根据文献报道,经过 polish 之后,拼接结果与真实基因组(其他测序数据拼接结果)的一致性可以达到 99.99%以上。即使组装工具带有纠错功能,仍建议再次进行一轮或多轮的矫正。
生信喵实验柴
2022/10/25
1.9K0
组装结果纠错
ECC检验与纠错
本文介绍了ECC检验与纠错技术,以及其在NAND闪存中的应用。ECC能够检测和纠正NAND闪存中的数据错误,从而提高数据存储的可靠性。ECC技术的工作原理包括生成ECC签名、检测数据错误和纠正数据错误等步骤。在NAND闪存中,ECC技术可以提高数据存储的可靠性,减少数据错误的发生。
Christal_R
2017/12/25
3.4K0
ECC检验与纠错
基于机器学习的纠错系统技术 - 智能文本纠错 API
在过去的几十年里,文本纠错技术已经取得了巨大的进展,从最初的基于规则的纠错系统到现在的基于机器学习的纠错系统,技术的发展已经帮助人们解决了大量的文本纠错问题,随着机器学习技术的发展,文本纠错技术也发生了重大变化。
不是海碗
2023/04/28
8720
基于机器学习的纠错系统技术 - 智能文本纠错 API
纠错码与魔术(三)——汉明纠错码魔术初步
本系列前面两篇已经介绍了纠错码的基本原理和在魔术中的应用和一些魔术例子,相关内容请戳:
magic2728
2023/01/30
5190
ASR文本纠错模型
文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。
小爷毛毛_卓寿杰
2022/11/30
2.6K0
ASR文本纠错模型
英文单词拼写纠错
有人po出了大神Peter Norvig的‘Spelling Corrector’(拼写检查器) 
py3study
2020/01/16
2.5K0
英文单词拼写纠错
纠错码与魔术(一)——纠错码与汉明码简介
接着上一个系列的入门,这个系列我们继续讲通信编码与魔术。在前面《编码通信与魔术初步(六)——经典魔术《傅氏幻术》赏析和《我的心灵感应》》系列里,我们挂一漏万地介绍了一般通信编码的原理和基本的魔术应用。
magic2728
2023/01/30
1.1K0
OCR技术浅析
本文介绍了OCR(光学字符识别)技术的基本概念、发展历程、主要应用领域,以及基于深度学习的OCR识别框架。与传统OCR相比,基于深度学习的OCR识别框架减少了三个步骤,降低了因误差累积对最终识别结果的影响。
企鹅号小编
2017/12/28
9.2K0
OCR技术浅析
OCR material
End-to-End Text Recognition with Convolutional Neural Networks
bear_fish
2018/09/19
11.8K0
OCR material
纠错码与魔术(四)——汉明纠错码魔术进阶
在上一篇中,我们介绍了两个汉明纠错码思想构造的魔术,哪两个都是最基本的应用,相关内容请戳:
magic2728
2023/01/30
5700
命令行纠错工具
平时常常会打错命令行,很烦,然后就找到了这个工具thefuck,简单粗暴的命令行纠正工具
DrugScience
2021/02/04
1.6K0
命令行纠错工具
Google大数据案例解析
将系统产生的大数据传输,存储,分类等很多是技术型工作,随着大数据技术的发展,通用的解决方案,越来越成熟,也越来越廉价(几乎每两年存储价格降低一倍)。但是对于大数据应用来讲,思维其实是更重要的,只有巧妙
灯塔大数据
2018/04/09
1.4K0
Google大数据案例解析
OCR识别
最近作者项目中用到了身份证识别跟营业执照的OCR识别,就研究了一下百度云跟腾讯云的OCR产品接口。
写代码的猿
2019/04/11
21.9K0
OCR识别

相似问题

精确(纠错)图匹配算法

18

误差检测与纠错算法

35

文本自动纠错的动态算法

10

算法:最小编码,纠错,请帮助?

33

Java OCR算法

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文