tesseract中的TSV和TXT输出

文章/答案/技术大牛

发布

1回答

Tesseract tsv输出不工作

csv、tesseract、ubuntu-17.10

我正在尝试从Ubuntu17.10中的命令行执行tesseract。我想要.tsv文件中的输出，因为我需要置信度。正如解释过的，我执行：但我得到了以下错误：Tesseract OpenSource OCR Engine v3.05.00

浏览 0提问于2018-03-10得票数 3

回答已采纳

1回答

python、ocr、tesseract

我正在使用tesseract在Python中执行OCR。我想让TSV文件对置信度做一些分析，但也要用已读文本的文本文件。然而，获得这两个输出的唯一方法是运行tesseract两次，这很耗时：tesseract input_image out_tsv-l eng tsv 目前有没有一种方法可以在一次执行中创

浏览 4提问于2018-07-26得票数 4

1回答

Tesseract命令行界面:获得每个字符的识别可信度

tesseract

当使用Tesseract C API时，可以迭代识别的字符，获得它们的边界框和它们的识别可信度。我已经了解了如何使用Tesseract CLI获取边界框，它是通过在命令末尾添加makebox来完成的。问题是它不包含认可的信心。有没有办法告诉Tesseract CLI也输出每个字符的信心？

浏览 6提问于2017-06-20得票数 1

1回答

Java中的象形文字或符号识别(Android)

java、android、neural-network、ocr、game-development

我正在制作一个Android游戏，它的核心机制是通过绘制以前指定的符号来“施法”。为此，我尝试了Tesseract，但它将胡言乱语识别为符号，并且(据我所知)没有任何方法来衡量与任何符号的相似性。我可以使用哪种神经网络/ocr实用程序来完成我的任务？

浏览 0提问于2021-04-01得票数 0

1回答

从图像中提取文本- OCR

deep-learning、data-mining、cnn、image-recognition、ocr

我的形象是这样的：我想提取参数和对它们的值。有人能指导我怎么做吗？我知道，如果图像包含一些简单的文本，我们可以使用tesseract和PIL库从图像中提取文本。在有多个参数的情况下，该怎么办？

浏览 0提问于2019-06-08得票数 1

1回答

不支持TSV输出。必需的Tesseract >=3.05

python、python-3.x、tesseract、python-tesseract、pytesser

我对tesseract版本有意见。引发TSVNotSupported() pytesseract.pytesseract.TSVNotSupported: TSV输出不支持。必需的Tesseract >=3.05 如何安装tesseract 3.05？

浏览 8提问于2020-02-06得票数 1

1回答

将扫描的PDF表格转换为Excel

python、excel、pdf、ocr

我有一个扫描的PDF，其中有一些表格格式的随机数据，并希望将其复制到Excel工作表。我试过使用数字PDF，使用'tabula‘来提取表格，但扫描的PDF需要OCR(我在google上看到的)。我知道涉及到OCR (Tesseract)，但不知道我应该采取什么方法来解决这个问题。

浏览 7提问于2019-06-20得票数 0

1回答

我正在尝试使用pytesseract在一个带标签的图像中进行ocr，标签返回一个带有相关边界框的xml。我想要匹配标签，看看它们是否与使用其边界框从整个图像中OCR的文本重叠。有没有办法获得每个完整单词的边界框？我试过下面的代码，但它返回每个字母的边界框，所以我想知道是否有人可以推荐一种替代方法，或者他们是否知道python中的替代ocr包可以使用我的xml文件来查找边界框和其中的ocr (或者他们

浏览 5提问于2019-01-13得票数 0

4回答

使用Tesseract进行页面布局分析？

c++、image-processing、ocr、tesseract

但是，我找不到任何关于如何使用该库的示例代码或文档。我希望这里有人能解释一下如何对图像进行布局分析，以及如何解析生成的数据。

浏览 5提问于2011-11-14得票数 13

回答已采纳

3回答

如何在python或命令窗口中获取Tesseract置信度？

python、tesseract

如何在windows中使用tesseract 3.05获得图像OCR后的置信度？我使用子进程命令从python调用tesseract： retcode = subprocess.call("tesseract -l eng myImage.png txt -psm 6" , stdin

浏览 2提问于2016-05-05得票数 3

回答已采纳

1回答

如何编写bash脚本来对目录中的所有文件运行相同的命令

18.04、bash、tesseract

我想对目录中的所有文件运行这个命令。tesseract /home/kong/Documents/input/248.jpg stdout --psm 1 --oem 1 --dpi 300 tsv >/home/kong/Documents/input/ocr_output/input/248.tsv 输入和输出应该有相同的数

浏览 0提问于2019-07-31得票数 2

回答已采纳

2回答

如何从图像中提取特定文本

android、ocr、google-vision

从下图中，我想提取文本Arzt-Nr (654321161)下面的数字。我使用了以下代码，但文本没有按顺序排列。 String text = ""; TextBlock item = detectedItems.valueAt(i);

浏览 5提问于2018-11-15得票数 0

1回答

Tesseract多输出格式

ocr、tesseract

我的上下文我正在生成一个.tsv来检索提取的文本并在其上执行一些正则表达式，并生成一个.pdf以获得一个可搜索的pdf。我做这件事的方法是给tesseract打2次电话：我所希望的我希望我的计算更快。我的想法是只调用一次

浏览 0提问于2018-11-06得票数 5

回答已采纳

1回答

文件合并-同名，不同扩展名

files、cat、merge

如何将名称相同但扩展名不同的不同输入.txt和.tsv文件合并到输出文件中？输入：file1.txt，file2.txt，file1.tsv，file2.tsv 输出：file1.merged，file2.merged

浏览 0提问于2015-11-10得票数 2

回答已采纳

1回答

如何找到与特定点最接近的文本？

python、opencv、image-processing、ocr、python-tesseract

我有一个图像，带有最顶部坐标和最左侧坐标的标记点，我需要从该坐标找到相应的文本以获得该线的长度。 ? 我不允许使用原始图像，所以我尝试重新创建它。我需要得到蓝色坐标下的1700和红色坐标下的2777，才能找到每一条边的大小。现在我有了点的坐标，我正在考虑在那个点周围做一个ROI，并在那个ROI中找到文本，但我不知道怎么做。现在我得到的最外层的点是这样的： import cv2 import nu

浏览 18提问于2019-09-17得票数 2

回答已采纳

4回答

如何从命令提示符测试同一文件夹中的多个文件？

batch-file、cmd、ocr、command-prompt、tesseract

我知道如何在OS X上使用Terminal来测试同一目录中的多个文件。for i in *.tif ; do tesseract $i outtext; done; 对于如何在运行Windows的计算机上通过命令提示符执行此操作，有人有什么建议吗？

浏览 2提问于2015-07-28得票数 9

2回答

从文件中读取行，然后使用这些值搜索另一个文件

bash、csv、grep、cat

我有一个包含名称列表的文件(names.txt)，还有一个包含数千行制表符分隔值(CallLog.tsv)的文件。我需要在names.txt中使用CallLog.tsv文件grep每个名称，然后将其另存为一个新文件。现在我正在逐个命名：然后，我将把所有的名字放到另一个文件中，并使用cat： cat "John" "Mi

浏览 0提问于2013-07-31得票数 3

回答已采纳

1回答