ocr技术大数据_ocr 技术_ocr技术 - 腾讯云开发者社区

、、

我正在测试各种Python 图像预处理管道 for tesseract-ocr。我的输入数据是pdf发票和各种质量的收据，从扫描的文件(最好的)到手机提供的照片，在恶劣的灯光下拍摄(最差)，以及两者之间的一切。当对OCR执行手动扫描时，我通常会选择几种扫描预置(非锐利掩模、边缘填充、颜色增强、伽马)。我正在考虑在Python管道中实现类似的解决方案。我理解OCR质量的标准度量是Levenshtein (编辑距离)，它是相对于地面真相的结果质量的一种度量。我想要的是图像处理效果对OCR结果质量的测量。例如，在本文中，作者描述了至少两种测量值:白散斑因子( )和破碎特征因子(BCF)。我读

浏览 11提问于2022-01-16得票数 0

9回答

Tesseract OCR简单示例

、、

嗨，你们谁能给我一个简单的例子来测试Tesseract OCR，最好是在C#中。我试过演示，找到了。我下载了英文数据集，并将其解压到C盘中。并将代码修改如下： string path = @"C:\pic\mytext.jpg"; Bitmap image = new Bitmap(path); Tesseract ocr = new Tesseract(); ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only ocr.Init(@"C:\

浏览 5提问于2013-05-17得票数 28

1回答

改进表识别

、

我尝试使用表单识别器分析发票，标签tool.The发票包含字段和表数据。表中的所有数据都由ocr进程识别并可读。不幸的是，这些表并不总是被认为是表。有时，只有一半的数据被识别为表，在某些情况下，没有任何标记为表。获取表数据的最佳方法是什么？说：“表数据应该被自动检测，并在最终的输出JSON文件中可用。但是，如果模型无法检测到所有表数据，您也可以手动标记这些字段。用不同的标签标记表中的每个单元格。如果表单中的表有不同的行数，请确保至少用尽可能大的表标记一个表单。” 这是不切实际的，而且会使几百个字段以上的现场计数器麻木。是否有改进表识别的方法，可能通过修改labels.json和定义

浏览 4提问于2020-07-08得票数 1

1回答

基于贝叶斯分类的数字识别

、

我只需要为数字写一个OCR程序。我将使用MNIST数据集。问题是我不知道从哪里开始。有很多论文并没有真正解释算法。我对模式识别并不是很了解。所以我有几个问题。 Q1 :在哪里可以找到算法(或教程) Q2 :如何对数字进行分类？我不需要非常高级的东西。我首先想到的是找出上半部分/下半部分和左侧/右侧的比例。有没有更有用和更简单的分类方法。Q3 :什么是反向传播和层，这在大多数论文中都有介绍。我的简单的OCR需要它们吗？注意:我知道我的OCR程序不会准确。就目前而言，这并不重要。

浏览 0提问于2011-11-18得票数 6

回答已采纳

1回答

如何使用OCR从jpg文件中提取数值

、、、

我创建了以下代码并执行： Ocr.setUp(); Ocr ocr = new Ocr(); ocr.startEngine("eng", Ocr.SPEED_FASTEST); String s = ocr.recognize(theImage, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PLAINTEXT); ocr.stopEngine(); Output: Result: L‘i L‘L’Ui l 实际上，图像只包含数字值。是否可以使用上述代码仅提取数字值？我在jpg文件中显示了1234个数值，我只想在o/p控制台中打印这个

浏览 2提问于2015-11-25得票数 0

回答已采纳

1回答

如何限制对Google Vision进行TEXT_DETECTION调用返回的文本？

、、、

我目前正在尝试使用Google Vision API for OCR。当我上传图像时，我看到返回给我的JSON有效负载相当大。我在响应中看到了两个主要的存储桶: 1) "textAnnotations“2) "fullTextAnnotation” 我只对"textAnnotations“返回的JSON感兴趣，我不关心fullTextAnnotation存储桶。本质上，我只对单个单词和它们对应的边界框感兴趣，我不需要任何更细粒度的OCR数据。响应似乎可以解析出段落、符号和单个字符，但我不需要这些。有没有办法通过在请求中发送一些标志或参数来过滤google vision

浏览 9提问于2017-03-08得票数 1

2回答

指定光学字符识别的最佳方法是什么？

、、、、

我有一个完全可以理解的信息提取要求(发票号、发票数据、到期日、总数等)。从扫描发票(数字格式是图像，而不是PDF)，最好是Python。好的是，所需的信息或多或少肯定存在于页面上，而这些信息的(regexp类)文本格式也往往是后续的。另一方面，缺点是发票的布局非常多样。我使用了以下可能的方法：使用字符识别来提取纯文本，然后尝试与片段拼图。这种方法存在着相当大的问题: OCR的质量(至少是在tesseract库中已实现的OCR)相当平庸，输出是无可救药的非结构化的(实际上是一堆单词)，即使对于普通短语，也很难找到任何regexp或其他规则。我的另一种方法是对原始图像本身或文本堆进行某种深度

浏览 0提问于2017-03-23得票数 4

2回答

OCR扫描文件并检索元数据

、、、、

我正在使用Alfresco社区6.1。我有数千张发票要扫描，OCR它们(接近100%的识别)和检索所需的元数据(合作伙伴，发票号码，金额，单位，货币，.)。根据检索到的这些元数据，我需要对发票进行一些操作(将它们移动到适当的文件夹，应用一些工作流.)。作为第一批批准：对于OCR，我使用了，但结果并不十分准确(远远不是100%)。为了检索结果，我将OCRed转换成一个纯文本文件，然后使用javascript和document.content搜索它的内容。但是由于OCR不准确，我无法判断它是否是在文档中搜索的最佳解决方案。所以我的问题是：如何使OCR结果更加准确？

浏览 4提问于2019-09-26得票数 1

1回答

自动重定向和裁剪相似图像

、、、

我已经四处寻找了一段时间，但一直找不到一个人确切地描述我想要实现的目标。目前，我有大约25,000张旧打字文档的图像，我希望从这些图像中建立一个数据库。最初，我认为我只能通过OCR软件在一批中运行这些图像，并处理其中的数据。然而，图像的格式使我无法使用OCR软件批量转换它们，而不会丢失文档中的大量数据。每张照片中相关信息的方向和位置是不同的，这使得我无法使用单个模板来告诉OCR软件应该读取哪些信息。每张照片都由一张纸组成，上面有一个信息表，你可以看到这张纸边缘的一些背景。我感兴趣的是找到一种自动重新定向和裁剪每个图像的方法，以便每个图像中的信息表具有相同的位置和方向。这样，我就可以使用OC

浏览 1提问于2014-10-04得票数 0

2回答

开放源码中文OCR

、、、

我到处寻找开放源码的OCR，寻找中文。但如果没有任何运气，似乎很少有一些开放源码的OCR (为中文)是可用的。所以我在这里想： environment?What's是否有用于制作的开放源码？对于拉丁文和中文实现OCR的主要区别是？我知道一些好的OCR，如Tesseract或Ocropus，如果我想让它支持中文，我该怎么办？如有任何帮助，请提前表示感谢。

浏览 3提问于2009-12-15得票数 9

回答已采纳

1回答

突出显示嵌入在HTML中的PDF文档中的斑点

、

员工需要检查使用OCR导入的数据。它们具有web界面，左侧显示导入的数据，右侧显示扫描的图像。当处理一个大的项目列表时，他们会迷路，并要求工具/笔能够突出显示(PDF)已选中的行。有没有可能使用JavaScript并绘制到所查看的PDF？

浏览 4提问于2013-05-31得票数 1

回答已采纳

1回答

从中文文档中提取数据

、、、、

workfusion是否支持使用OCR和机器学习从中文文档中提取数据。敬请指教。致敬，Sunil Prabakar C

浏览 2提问于2019-09-11得票数 0

3回答

是否有OCR的行业标准输出格式？

、

是否有OCR的行业标准输出格式？我似乎找不到任何被定义为行业标准的东西，我对OCR也不是很有经验，所以我也不知道是否有标准。

浏览 3提问于2013-06-04得票数 1

回答已采纳

1回答

将pdf转换成波斯语文档的OCR软件

、

在波斯语中，大多数OCR依赖于框架，而不是免费的。在波斯语中，有网上免费的OCR吗？

浏览 0提问于2016-05-31得票数 3

回答已采纳

1回答

有谁能帮我在android中使用ocr名片扫描仪吗？

、、

我是android领域的新手。我想制造与android中的ocr相关的名片扫描仪。为此，我使用这个网站参考。现在基于这个网站，我完成了所有的任务。但后来我无法决定该做什么。.I对于OCR代码中的get输出没有一个完美的方向。我有三个相关的选择： (JAVA代码) (ocr的字快照代码) (梅佐凡提) 请给出一个正确的方向。。谢谢。。

浏览 6提问于2011-09-02得票数 3

2回答

Windows下.NET工控机最有效的实现方式

、、、

我要把一个程序分成两部分，因为我的进程内存快用完了。一个部分是将图片存储在文件系统(GUI)上，另一部分是分析图片(OCR)并将结果报告给主部分。两个进程之间的通信如下所示： OCR进程是否响应？如果没有，启动OCR进程。告诉OCR进程有一张新图片。等待OCR进程返回结果(很可能小于1KB字符) 按照我的优先次序，最重要的三件事是：高性能高稳定性低复杂度-我只有三天的时间来完成和测试程序。 GUI是用.NET/C#编写的，所以解决方案必须与此兼容。您推荐我使用哪种IPC方法？

浏览 1提问于2011-01-13得票数 0

回答已采纳

2回答

文档管理私有用户

、

我正在寻找一个文件管理系统，该系统支持：大容量扫描文档扫描文档自动OCR 在我选择的本地HD /外部服务器上存储数据自动备份(没那么重要) 适当全文搜索文档版本化 (自动)文档分类或标记平台无关免费您知道满足这些要求的文档管理系统吗？

浏览 0提问于2013-03-19得票数 6

1回答

Python PIL图像转文本无法正常工作

、、、、

下面是我的python脚本，用于读取图像上的文本。但它不能正常工作，因为后来的t被理解为+或f.I想知道如何处理这个问题吗？我还附上了我正在尝试读取的文件。 import tesserocr from PIL import Image print tesserocr.tesseract_version() # print tesseract-ocr version print tesserocr.get_languages() # prints tessdata path and list of available languages image = Image.open('t

浏览 0提问于2017-03-26得票数 0

1回答

对文档的旋转图像进行纠偏

、、

我有护照身份证的OCR数据集。图像可以在数据集中随机旋转(任何角度)。消除图像倾斜的最好方法是什么(这应该有助于网络更准确地检测字符)？最简单的方法是训练NN，但我相信，应该有任何经典的计算机视觉方法来完成这项任务。

浏览 13提问于2020-05-01得票数 0

1回答

双语图像(含文本)检测

、、

我有几个包含文本的图像，我想在上面执行OCR，但问题是一些图像是双语的，包含英语和阿拉伯语文本，还有一些是纯英语。我怎样才能检测到这些双语页面？我只想要英文的OCR。

浏览 1提问于2016-03-10得票数 0

1回答

如何防止NN忘记旧数据

、

我为OCR实现了NN。我的项目获得了相当高的成功认可率，但最近(两个月前)它的性能下降了大约23%。在对数据进行分析后，我注意到图像中出现了一些新的不规则现象(额外的扭曲、噪声)。换句话说，我的nn需要学习一些新的数据，但也需要确保它不会忘记旧的数据。为了实现这个目标，我对NN进行了新旧数据的混合训练，并且我尝试的非常棘手的特性是防止权重发生变化(最初，我限制了不超过3%的更改，但后来接受了15%的更改)。为了帮助NN不“忘记”旧数据，还能做什么呢？

浏览 2提问于2015-11-30得票数 1

回答已采纳

2回答

如何获得正则表达式的最近匹配

、

我有一个使用正则表达式从文本(format =mm)中提取日期的代码。备注：文本是在票据图像上使用OCR获取的。因此，预期的日期格式是，但是它可以是任何随机文本，因为它是使用OCR获得的。 import re date_reg_exp = re.compile('\d{2}[-/.]\d{2}[-/.]\d{4}') #works for mm-dd-yyyy matches_list=date_reg_exp.findall(test_str) for match in matches_list2: print match 如果我有一个字符串'This is a

浏览 7提问于2015-12-04得票数 2

2回答

XPathExpression从tesseract hOCR XML输出中进行选择

、、、

我有一个大致如下形状的文件： <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"

浏览 1提问于2014-04-30得票数 3

回答已采纳

1回答

Tesseract -将多个单词图像格式化为一个OCR图像的最佳方法

、、、

我有一系列的图像，每个图像都包含一个单词。我不想单独对所有图像运行pytesseract OCR (这很好用)，而是将这些图像编译成一个大图像，然后对其运行pytesseract OCR (以减少运行时间)。设置图像格式以获得最佳效果的最佳方法是什么？(例如:它们应该水平排列、垂直排列、杂乱排列等) 另外，什么是最好的页面分割模式？我尝试了水平连接图像，然后使用PSM 7(将图像视为单行文本)，然而，这没有使用PSM 8对每个单独的单词图像运行pytesseract OCR (将图像视为单个单词)效果好。

浏览 16提问于2019-04-03得票数 2

1回答

Azure OCR正在跳过某些值(尤其是数字)

、、

我在一张纸上用数字创建了一个简单的网格，它跳过了一些数字。我在多个型号上测试了它，似乎Azure OCR真的跳过了一些数字。有没有人成功地创建了一个不跳过数据的网格(或类似的网格)？也许是一些可以提高一致性的设计模式？ -示例

浏览 5提问于2019-05-29得票数 0

3回答

如何从PDF图像中提取文本

、、、、

我想从有图像的PDF中提取数据，图像的形式是字母将在小盒子里，例如name : t e s t，这里的每个单词都将在方形盒子里。我尝试过tesseract OCR不能得到想要的结果。我已经尝试过商业ABBYY工作，但我想使用基于java的免费API。下面是示例

浏览 29提问于2018-05-13得票数 1

回答已采纳

2回答

码头装卸后的目录定位

、、

我正在尝试使用docker复制来自存储库的结果。我已经完成了拉 docker pull gasparjan/crnn_ocr:cpu 并使用 docker run --rm -it -v /home:/data -p 8004:8000 gasparjan/crnn_ocr:cpu 执行以下命令： python3 predict.py --G 0 --model_path %PATH_TO_MODEL% \ --image_path %PATH_TO_IMAGES% \ --validate --num_instances 512 --max_len 21 我需要PATH_TO_MODEL，

浏览 1提问于2021-04-27得票数 0

回答已采纳

1回答

使用python opencv清理ocr图像

、、

我目前正在学习计算机视觉OCR。我有一个需要扫描的图像。在图像清理过程中，我遇到了一个问题。我使用python中的opencv2来做这些事情。这是原始图像： image = cv2.imread(image_path) cv2.imshow("imageWindow", image) ? 我想要清理上面的图像，中间的数字(64)是我想要扫描的区域。然而，这个数字也被清理了。 image[np.where((image > [0,0,105]).all(axis=2))] = [255,255,255] cv2.imshow("imageWindow&#

浏览 31提问于2020-06-19得票数 1

回答已采纳

3回答

从图像中提取线条以馈送到OCR - Tesseract

、、

我在15:33左右观看了pycon 的演讲，演讲者谈到了从图像(收据)中提取线条，然后将其提供给OCR引擎，以便以更好的方式提取文本。我也有类似的需求，我需要将图像传递给OCR引擎。然而，我不太明白他从图像中提取线条是什么意思。我可以使用哪些开源工具从图像中提取线条？

浏览 4提问于2013-03-28得票数 5

2回答

Tesseract OCR QT错误

、、、、

我在做一个大文本识别程序。我试图在多线程模式下使用Tesseract (最多50个线程)。有时，当我调试我的程序时，我会在这一行中得到一个错误(分段错误)： /// Returns true if the edge spot in this location is occupied. inline bool edge_occupied(EDGE_REF edge_ref) const { return (edges_[edge_ref] != next_node_mask_); } 在文件中.\tesseract-ocr\dict\dawg.h 我正在每个线程中创建tesseract的

浏览 4提问于2013-12-09得票数 1

回答已采纳

3回答

检测单词是普通英语单词还是俚语单词

、、

我有一大串简短的短语，例如： sql server data analysis # SQL is not a common word bodybuilding # common word export opml # opml is not a common word best ocr mac # ocr and mac are not common words 我想检测单词是不是一个不常见的词，不应该是进一步的过程。我试过用NLTK来做这件事，但是它会产生奇怪的结果： result = word in nltk.corpus.words.words() sql = false iso = t

浏览 0提问于2019-12-03得票数 1

回答已采纳

1回答

扫描数以千计的纸张表单响应，并将所有信息导出到一张纸中。

、、、

我对下列书面表格有一千份手写答复： 📷 我需要扫描它们(我有一个扫描仪)并导出如下表格中的所有数据： 📷 这个是可能的吗？用OCR吗？用乳胶？和Python？用Windows软件？我愿意接受所有的答案。如果必须对文档进行转换，例如，文本字段是大框，或者您必须用大写字母书写，这是没有问题的。

浏览 0提问于2022-11-17得票数 1

1回答

从Azure Cognitive Services Read返回OCR格式的PDF文件(带有文本覆盖)

、

我已经实现了Azure Cognitive Read服务来返回PDF中提取的/OCR文本。但是，为了使用户更容易理解上下文/从PDF复制和粘贴数据，我想将该文本数据覆盖在PDF上。然后我会将该PDF放入查看器中。有没有人知道该怎么做。也很乐意使用AWS。基本上，一个API，我提交了一个PDF，它返回一个OCR的PDF是我要找的。如果这是不可能的，一个库，我可以提交文本和PDF (并返回一个文本可搜索的PDF)也是理想的。

浏览 1提问于2021-07-23得票数 1

3回答

在Automation Anywhere中IQ机器人是什么？

、、、

在Automation Anywhere中IQ机器人是什么？我真的很困惑，因为Automation Anywhere的前一个版本已经有了OCR和图像识别的能力，它的区别是什么？

浏览 0提问于2019-10-17得票数 0

4回答

机器学习/数据分析的类型

我正在寻找一个框架或图表，分类所有不同类型的数据分析/机器学习。我想用这个分类来组织我的知识/领域学习。我所指的数据分析/ML类型的例子包括：-地理地图-图像识别(CV，OCR.)-信号处理-文本/语音理解是否有对所有这些领域进行分类的图表/框架？

浏览 0提问于2019-11-21得票数 1

1回答

使用LeadTools的OCR

、

有没有人有一个代码片段，展示如何实时使用LeadTools进行OCR？我希望OCR是一个特定的区域内的相机预览。我正在Android上进行开发。

浏览 0提问于2018-03-28得票数 0

回答已采纳

1回答

检查两个图像是否相同的最简单的方法是什么？

、、、、

我不是在说标题/名字，我指的是像素分析或者位图.也许是OCR？我需要减少服务器的使用，不使用重复的媒体，所以如果一个人试图上传的照片，已经在服务器上已被其他人上传，该照片将不会被上传。

浏览 1提问于2015-04-06得票数 1

回答已采纳

2回答

PDF和文本层

、、

根据这个站点的，当添加一个文本层时，PDF是可搜索的。我正在寻找PDF的技术规范。我认为文本可以通过两种方式存储到PDF中: a)作为图像层之上的文本层(如上面的网页中所述) b)当您从Word文档(带有文本)创建PDF时，我不认为Word会将所有文本存储在文本层中。我想它会把它存储在图像层？对吗？从PDF1.4开始，添加了XMP ()。但是什么是XMP呢？这就是我上面讨论的“文本层”吗？如果扫描仪在图像上执行OCR，它是否将文本存储在“文本层”中？或者是"XMP“字段？这只能在PDF版本为1.4的情况下发生吗？如何检测PDF是否已经有文本数据？例如: PDF A已使用OCR扫

浏览 2提问于2012-07-10得票数 15

回答已采纳

1回答

如何使用Tesseract OCR从平行线图像中提取文本？

、、

import pytesseract from PIL import Image value=Image.open("v.jpg") text = pytesseract.image_to_string(value, lang="eng") print(text) 但是我没有从OCR得到任何输出

浏览 4提问于2020-05-25得票数 2

1回答

适用于.net的免费OCR SDK，可将文本、表格和图像提取到Office word文档中

、、

我想有一个免费的OCR SDK，可以提取文本，表格与数据和图像从扫描的文件(.tiff，.png等)，并存储到Office Word文档文件。请帮我把这个问题删掉。我已经做了提取文本只从图像使用莫迪，但不能得到的方式使用莫迪如何提取表格和图像，并存储到Office Word文档文件。

浏览 5提问于2011-08-12得票数 3

1回答

使用Iphone摄像头识别特定位置的文本

、、、、

我想开发一个应用程序，应该能够识别计算机打印卡中的一些数字(位于卡的固定位置)，然后将它们发送到网络服务。我知道我应该使用OCR，但我不确定哪种产品适合我的需求。这将是伟大的，如果你可以建议我的任何api的或市场上的产品(开源不是必须的，但它将非常受欢迎:)，这可以帮助我在这个项目。除此之外，我还有另一个技术问题:你是在设备中实现OCR识别，还是使用you服务调用它，并将图片传递给它？这两种模型的优缺点是什么？

浏览 0提问于2011-04-26得票数 6

4回答

数据错配。C#中要访问的UPDATE语句

、、、、

我正在从一个textboxes数据库中将数据加载到access中，以便进行编辑和更新。当我保存数据时，我得到Data Type Mismatch错误. 我希望像下面那样更新OCR标题，但只在选定的行上更新，这是我试图通过识别OCR标题上方文本框中的OCR号来完成的，因此我只能更新该特定行，而不是所有这些行。 string strSql = "UPDATE Responses SET [OCR Title] = '" + textBox6.Text + "' where OCR = '" + textBox5.Text + "

浏览 1提问于2014-01-09得票数 1

回答已采纳

5回答

是否有OCR无法识别的字体？

我正在试着写一个只能被人读懂的文档。无法复制文档内容。为此，我将其页面转换为图片，并将其添加回PDF文件。主要的问题是，任何OCR程序都可以恢复整个书面文本，特别是页面将是清晰的(而不是扫描的书)，这将提高OCR的准确性。那么，有没有OCR无法识别的字体呢？否则，有没有一种技术可以让我的文档只被人类阅读，而不被OCR识别？(例如，添加特定的背景，等等) 提前谢谢你。

浏览 3提问于2012-11-13得票数 4

回答已采纳

1回答

HowTo从PDF中提取嵌入的光学字符识别数据？

、、、

我有嵌入OCR数据的PDF文件。(所以我已经对它们进行了orcd )，所以它们是可搜索的。现在我想提取这个OCR数据，因为我想放入我的tomcat6搜索服务器。为此，我需要普通的OCR数据。所以我的问题是，有没有可能从pdf文件中提取嵌入的OCR数据？如果能得到带有坐标的文件就好了。但它也足以获得纯文本文件。

浏览 2提问于2011-03-02得票数 2

5回答

我可以在python中做一个有百分比准确率的“字符串包含X”吗？

、、、

我需要在一大块文本上做一些OCR，并检查它是否包含某个字符串，但由于OCR的不准确性，我需要它来检查它是否包含字符串的大约85%的匹配率。例如，我可能会对一段文本进行光学识别，以确保它不包含no information available，但光学识别器可能会看到n0 inf0rmation available或错误地解释了许多字符。在Python中有没有一种简单的方法可以做到这一点？

浏览 2提问于2012-06-01得票数 18

回答已采纳

2回答

从PDF中提取文本，并将提取的文本保存在Excel或其他地方

、

我不是专业的程序员。我想要一个简单的方法，从pdf中提取文本，并将文本保存到Excel中。我认为Uipath可以使用OCR提取文本。但我不认为这是一个非常可靠的方法。我可以使用Uipath通过一种比OCR更可靠的方式进行文本提取吗？我可以使用Python，R或其他用户友好的软件从pdf中提取文本吗？谢谢!

浏览 16提问于2020-07-13得票数 0

1回答

机器打印文本的ICR？

、、

我知道ICR基本上用于手写(手工打印)数据识别，但我们是否可以利用ICR来提取失真(质量差)的机器打印文本呢？如果不是，解决以下问题的最佳方法是什么？我有一个非结构化文档，它可能运行到两个或更多个页面，文档中只有很少的日期字段是handwritten.now，我想将它转换为文本文件。我尝试了一些完整的ocr(omnipage和abbyy等)工具，其中有ICR模块可以转换为文本文件。他们擅长全页OCR，但当它遇到手写日期时，它会放置垃圾字符，而不是使用ICR模块。我不想使用表单处理工具，比如parascript和A2ia，它们都是基于位置的，它们只适用于结构化文档。或者我们可以使用ICR来

浏览 3提问于2013-04-18得票数 2

1回答

attention_ocr模型如何使用图像/类？

我正在准备自己的数据集来训练attention_ocr模型。我正在尝试修改以准备我的数据集。指定的目的是什么(对于inception，对于attention_ocr，它看起来是)，attention_ocr如何使用它？

浏览 13提问于2017-07-10得票数 0

回答已采纳

1回答

从DV磁带中去除静止物上的彩色伪影的方法

、、、

我试图使用光学字符识别(OCR)来读取数字视频(DV)磁带上的文本。我正在使用裁剪的静止帧从视频为OCR过程。文本是白色的，但是有颜色伪影(可能是复合颜色伪影)，因此白色文本的颜色会流血(参见下面的示例)。颜色看起来像是洋红-青色-黄色的颜色，也许？如果我可以删除/过滤那些颜色，只在文本上留下白色，那么OCR的结果可能会得到改善。然后，我可以创建一个二元黑白图像。我现在可以这样做，但是我怀疑如果我能在OCR之前从白色文本中移除颜色，那么结果将得到改善，这将有望帮助将白色文本与背景图像分开。是否有任何方法，最好使用Imagemagick，从白色文本中过滤掉这些颜色？我不确定有什么最好的方法来

浏览 0提问于2016-11-21得票数 0

1回答