如何使用图像的tesseract输出从另一个图像创建可搜索的pdf

使用图像的tesseract输出从另一个图像创建可搜索的PDF的步骤如下：

1.了解Tesseract：Tesseract是一个开源的OCR（光学字符识别）引擎，可以识别图像中的文字。它支持多种语言，并且在文字识别方面有着较高的准确性。

2.安装Tesseract：首先需要在本地环境中安装Tesseract。根据操作系统的不同，可以前往Tesseract的官方网站（https://github.com/tesseract-ocr/tesseract）下载并安装适合的版本。

3.预处理图像：由于Tesseract对图像质量敏感，因此在进行文字识别之前，通常需要对图像进行预处理。这包括图像的清晰化、去噪和增强对比度等操作。可以使用图像处理软件（如OpenCV）或图像处理库来实现这些操作。

4.使用Tesseract进行文字识别：将预处理后的图像作为输入，使用Tesseract进行文字识别。可以通过命令行或编程接口来调用Tesseract。例如，使用命令行可以执行以下命令：

tesseract input_image.png output_text

这将将输入图像中的文字识别并输出到名为output_text的文本文件中。

5.将识别的文本导出为PDF：根据需求，可以将识别的文本导出为PDF格式。可以使用PDF生成库或编程接口将文本转换为PDF，并在其中保留原始图像的布局和格式。

总结：使用图像的Tesseract输出从另一个图像创建可搜索的PDF涉及Tesseract的安装和使用，图像的预处理，文字识别和导出为PDF。通过这些步骤，可以利用Tesseract和其他相关工具实现从图像到可搜索PDF的转换。腾讯云的相关产品和服务可以在其官方网站上找到，详情请参考：https://cloud.tencent.com/product

如何使用图像的tesseract输出从另一个图像创建可搜索的pdf

、、、

我有一个png图像，我改进了更好的tesseract OCR质量，然后我需要从原始图像搜索pdf。我可以使用以下python代码通过tesseract从改进的图像创建可搜索的pdf： f = open("programme.pdf", "w+b") file = sys.argv[1] black_and_white = create_black_and_white(image=file, threshold=150) # function converting the image to black and white with some filterin

浏览 19提问于2021-11-09得票数 0

3回答

使用R在PDF中存储Tesseract输出

、、、

我正在尝试使用R接口来测试tesseract来创建一个包含嵌入式文本的PDF文件。我已经看到了前面的问题，但是它是关于使用命令行接口进行tesseract的。这个问题是关于R界面的。我将tessedit_create_pdf选项设置为1，但没有得到新的pdf文件。我没有看到设置输出文件的选项。如何使tesseract创建一个带有嵌入式文本的pdf？下面的代码在内存中生成很好的文本，但是没有PDF文件。 library(tesseract) packageVersion("tesseract") [1] ‘4.1.1’ eng1P <- tesseract(languag

浏览 9提问于2021-08-29得票数 1

1回答

使用openjpeg2运行tesseract 4.1 -无法生成pdf输出

、、

我已经安装在我的RedHat机器上： (py36_maw) [rvp@lib-archcoll box]$ tesseract -v tesseract 4.1.0 leptonica-1.78.0 libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1 Found SSE 我试图运行，根据我能找到的文档，生成pdf输出： (py36_maw) [rvp@lib-archcoll box]$ time tesseract test.jp2 out

浏览 4提问于2019-12-17得票数 0

回答已采纳

1回答

如何在创建可搜索PDF时保留图像和PDF样式？

、、、、

我有一个网站，我的客户可以上传他们的文件(主要是PDF)。我希望能够使PDF搜索，但我不希望的外观和感觉的PDF被改变。我已经尝试创建一个.NET端点来实现我可以发布到的这个端点。我已经尝试了iTextSharp与Tesseract，但他们都没有给我的东西，我正在寻找。下面是我尝试过的代码：使用tesseract从pdf中获取文本： using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default)) using (var img = Pix.

浏览 1提问于2021-02-03得票数 1

回答已采纳

1回答

如何使矢量PDF可搜索？

、

我的工作流程包括在Inkscape中生成图形，然后将其转换为PDF并包含到LaTeX文档中。在这些数字中，我经常要包括数学公式。为此，我使用。为了字体的一致性和简单性，当我想在我的图形中添加一些纯文本时，我也使用TexText。当生成的SVG转换为PDF时，文本生成的文本是不可搜索的。我如何从SVG中生成一个可搜索的PDF，同时保持一个向量PDF? 我知道我可以对这个数字进行栅格化，然后使用例如创建一个可搜索的PDF。但由此产生的PDF当然会包含我的数字的一个光栅化版本。我希望图形本身保持矢量图形。我猜一定会有这样的方法:实际上，将PDF进行栅格化，并使用Tesseract提取文本。然后拿

浏览 5提问于2022-02-09得票数 0

1回答

在OCR PDF上与Tesseract一起使用时，Tika会复制文本

、、、

我有一个扫描的PDF，这是OCRed的，现在有一个扫描的图像和它上面的文本的双层。如果我使用Tika和集成Tesseract从PDF中提取文本，我会得到重复的文本:一个来自OCRed文本，另一个来自Tesseract的OCRing图像。在本例中，我只需要OCRed文本。我不能只是禁用Tesseract，因为可能有只包含图像的PDF或包含文本和图像的PDF。 Tesseract与一样集成在Tika中有没有办法告诉Tika不要对PDF中带有OCR文本的图像使用Tesseract？

浏览 34提问于2017-02-20得票数 0

1回答

基于Tesseract的图像文本识别

、、、、

我想创建一个pdf文件与文本识别从扫描图像。但是我不想要PDF文件中的原始图像，只是纯文本。文本应该是可见的，这样才能被读取，但是字体并不那么重要。这个Tesseract命令可以做我想做的事情，但是文本是看不见的。 tesseract -c textonly_pdf=1 test.tif test pdf 如何使文本可见？可以使用另一个命令行或python工具创建pdf文件吗？我在Ubuntu经营Tesseract。

浏览 2提问于2021-11-09得票数 0

1回答

tesseract (v3.03)输出为PDF

、、

为什么会返回此错误？ root@amd-3700-2gb ~/ocr_test # tesseract -l dan pdf.png out pdf Tesseract Open Source OCR Engine v3.03 with Leptonica Error opening data file /usr/local/share/tessdata/osd.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tes

浏览 2提问于2014-03-02得票数 4

回答已采纳

2回答

如何用C++中的tesseract制作可搜索的pdf

、、

我将从Qt (QImage)接收图像，然后将其转换为PDF。但现在我需要让它们可搜索。我如何在代码中使用Tesseract API来做这件事？基本上，我想在代码中执行以下操作(我使用的是C++，但我很乐意接受其他语言的答案) $ tesseract -l eng+mar mydoc.jpg out pdf

浏览 2提问于2021-01-20得票数 0

1回答

Tesseract多输出格式

、

我的上下文我使用tesseract从图像中提取文本。我正在生成一个.tsv来检索提取的文本并在其上执行一些正则表达式，并生成一个.pdf以获得一个可搜索的pdf。我做这件事的方法是给tesseract打2次电话：其中一个人要求.tsv 其中一个人要求.pdf 但我觉得这不是很有效率(同样的计算必须进行两次) 我所希望的我希望我的计算更快。我的想法是只调用一次tesseract，但指定两种输出格式。有可能吗？如果是的话，怎么做？

浏览 0提问于2018-11-06得票数 5

回答已采纳

3回答

为什么pdf2image给我一个空白的图像文件？

、、、、

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。当我运行用木星编写的代码时： import pdf2image from PIL import Image import pytesseract import cv2 import numpy as np pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-OCR/tesseract.ex

浏览 10提问于2021-06-06得票数 2

3回答

Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件

、、、

我使用tesseract批量将图像列表转换为可搜索的PDF以及包含OCRd文本的TXT文件。 tesseract infile outfile -l eng myconfig infile包含要处理的图像路径列表。 myconfig包含tesseract首选项以指定输出类型(tessedit_create_text 1和tessedit_create_pdf 1) 这给我留下了outfile.pdf和outfile.txt，后者包含用于分隔图像之间文本的页面分隔符。然而，我真正想要做的是在每个映像的基础上输出多个TXT文件，使用相同的图像名称。比如Image1.jpg.txt

浏览 1提问于2019-08-01得票数 0

回答已采纳

1回答

Tesseract可搜索pdf创建不起作用

、

我正在运行Tesseract 4.0.0，为了创建一个可搜索的pdf，我尝试了以下命令，但它似乎不起作用： tesseract input output pdf 它会给出一个错误： can't open file "\Program Files\...//pdf.ttf"! error during processing pdf文件已创建，但无法打开。我尝试了不同的图像格式: jpg、tif、png，但都没有成功。

浏览 20提问于2018-01-30得票数 2

1回答

使用tesseract v3创建具有可搜索文本命令行的pdf文档

、、、

我们正在使用tessereact从tiff扫描的文档中提取文本，我们使用tesseract命令行选项启动此功能，但是我们想使用Tesseract V3.0将此tiff扫描的文档转换为具有可搜索文本的PDF，并且我们还需要使用命令行获得此功能。我们的系统是Ubuntu 12服务器，你有什么想法吗？我们已经在Tesseract V3.0数据表中进行了搜索，但我们一直无法正确理解它。你们有没有人拿到类似的东西？提前谢谢你！

浏览 0提问于2014-04-15得票数 0

1回答

附有24位深度jpg图像的Tesseract pdf渲染器

、、、、

我必须从多个24位深度的jpg图像创建一个可搜索的pdf。我使用的是，默认情况下它是与libpng一起提供的。问题是tesseracts输出的是一个损坏的pdf！这些图像不存在于pdf中。文本仍然存在于pdf中。我在使用png文件时没有问题，但是输入是一个jpg图像。使用以下代码将jpg转换为png非常耗时： BitmapFactory.Options options = new BitmapFactory.Options(); options.inPreferredConfig = Bitmap.Config.ARGB_8888; Bitmap bitmap = BitmapFactor

浏览 2提问于2015-10-28得票数 2

回答已采纳

4回答

Tesseract ocr PDF作为输入

、、

我正在构建一个OCR项目，我正在为.Net使用一个包装器。包装器没有展示如何将PDF作为输入处理的示例。使用PDF作为输入，如何使用c#生成可搜索的PDF？我使用鬼怪脚本库将Pdf转换成图像，然后用它来输入Tesseract，它工作得很好，但是我没有保存Pdf的原始形状，我只得到了文本如何在保存原始Pdf格式的情况下从Pdf中获取文本？这是来自pdf的一页，我不想只需要文本，我希望文本的形状像原来的pdf格式，很抱歉英语很差。

浏览 21提问于2015-04-15得票数 23

1回答

为什么在此图像上使用tesseract时颜色会反转？

、、

当我使用tesseract将上面的图像转换成可搜索的pdf时，得到的pdf有白色和黑色的倒置(我不想要)。我使用的具体命令是tesseract my_img.png test pdf。我是做错了什么，还是有什么关于图像导致这种行为的东西？我有tesseract --version tesseract 3.05.02 leptonica-1.77.0 libjpeg 9c : libpng 1.6.36 : libtiff 4.0.10 : zlib 1.2.11 : libwebp 1.0.0 : libopenjp2 2.3.0 我正在运行macOS 10.14.2 (万

浏览 0提问于2019-01-14得票数 1

1回答

需要使用Tesseract API实现批量PDF提取

、、、

我有大量的PDF文档，我需要从中提取文本。用于进一步处理的提取文本。我以线性的方式使用Tesseract API对一小部分文档进行了这一操作，并获得了所需的输出。然而，当我有大量的文件时，这需要很长时间。我尝试使用Hadoop环境处理功能(Map)和存储(HDFS)来解决这个问题。然而，我面临着将Tesseract API实现到Hadoop (Map)方法中的问题。当Teserract将这些文件转换为中间图像文件时，我对在HDFS中如何处理Tesseract-API-进程的中间结果图像文件感到困惑。我已经搜索过，但没有成功地尝试了几个选项，比如：我通过使用Hadoop Reduce将

浏览 4提问于2017-06-17得票数 0

回答已采纳

2回答

tesseract ocr pdf -分割错误

我正在尝试用tesseract编写OCR文件，但它说： Tesseract开放源码OCR引擎name_to_image_type:Error:Unrecognized映像类型:上载526.pdf图像：：read _header:错误:无法读取此图像类型:上载526.pdf 我需要它来建立一个数据库来搜索被手动扫描的pdfs (图像).我做错了什么？我看到它支持pdfs..。不知道它是什么版本的tesseract --version或tesseract -v根本不起作用。

浏览 2提问于2014-12-12得票数 1

2回答

如何将tiff转换为可搜索的pdf，使用alfresco和tesseact？

、、、、

我希望使用alfresco和tesseract OCR将*.PDF文件转换为可搜索的*.PDF文件。 tesseract版本3.03需要编译，我需要使用源code.Is生成安装程序，还有其他解决方案。也有人能帮上忙吗？

浏览 2提问于2014-12-31得票数 1

回答已采纳

3回答

tesseract无法拾取页面右侧的字符

、、、

当遍历pdf页面时，tesseract识别一个页面上的字符，类似于： Table 1 Summary Data 3 Table 2 Unique Data 5 但在另一页上 Table 3 Reservoir Data 8 Table 4 Surface Data 9 它去掉最后一个数字，因此输出类似于 Table 3 Reservoir Data Table 4 Surface Data 数字8和9不会被

浏览 0提问于2020-06-06得票数 2

1回答

为tesseract提供缩放选项的幽灵脚本

、、、

我使用鬼脚本和tesseract从扫描PDF中提取文本数据。但部分pdf的扫描结果并不准确。为了测试目的，我正在拍摄pdf的截图，并将其传递给tesseract。下面是我面临的情况和问题。场景1: 链接到截图：一旦我将这个图像(从125%缩放的pdf中截图)传递给tesseract，下面是我得到的结果文本： ART\CLE标准号码PFUCE 场景2: 链接到屏幕截图：如果我通过上述屏幕截图(300%变焦)的，结果是好的。文章编号下面是我与鬼怪脚本和tesseract一起使用的参数： Ghostscript: gswin64.exe -dNOPAUSE -dBATCH -dSAFER

浏览 3提问于2012-12-10得票数 0

1回答

当我从可搜索的pdf文件(用tesseract命令创建)复制文本并将其粘贴到记事本时，文本将被更改。

、、、、

我已经创建了一个可搜索的pdf文件，通过运行命令在我的图像之一。 tesseract page.jpg test pdf --oem 1 --psm 5 -l urd 这是我已经转换成可搜索的pdf的图像。该图像包含乌尔都语文本，但是当我从新创建的pdf文件中复制它并将其粘贴到任何其他文本编辑器中时，这就是我所得到的。 GehbFie“ 任何能解决我的问题的技术人员和编码专家，我们将不胜感激，谢谢。

浏览 2提问于2018-10-04得票数 1

回答已采纳

3回答

将扫描的PDF转换为可搜索的PDF ( R)

、、、、

我正在尝试使用tesseract和pdftools包将一系列扫描的PDF转换成可搜索的PDF。我已经完成了两步。现在我需要写回一个可搜索的pdf。读取扫描PDF 运行OCR 写回一个可搜索的PDF eg <- download.file("https://www.fujitsu.com/global/Images/sv600_c_automatic.pdf", "example.pdf", mode = "wb") results <- tesseract::ocr_data("example.pdf&

浏览 22提问于2021-09-01得票数 1

1回答

提高OCR图像质量的研究

、、、、

关于问题和问题，我询问如何下载数千个PDF并处理它们以使用OCR提取文本，当涉及到增强文本输出时，我再次碰壁。我有兴趣提取一堆PDF的文本，以便在文本中搜索姓氏(我不一定需要能够阅读剩下的文本)。PDF代表旧报纸的文章，发表于1810年至1832年，用写成。对于tesseract来说，这种字体似乎特别具有挑战性。 tesseract 问:我怎样才能进一步提高的形象质量--至少改变一下，以找到文本中的姓氏？你建议怎么做？如果我们以 pdf为例，我在申请时会收到以下图片 convert -colorspace GRAY -resize 3000x -units PixelsPerInch ex

浏览 4提问于2017-06-30得票数 3

回答已采纳

1回答

在Android中使用Tesseract创建可搜索的pdf

、、、

我受雇于我的客户创建一个android应用程序，它将使用Tesseract对图像执行Ocr，以将其转换为可搜索的pdf。目前，我能够使用此代码从图像中提取文本； String extractText(String imagePath) { dataPath= Environment.getExternalStorageDirectory().toString() + "/Android/data/" + appContext.getPackageName() + "/"; File tessdata = new File(dataPa

浏览 29提问于2020-12-20得票数 0

1回答

在生成PDF时，Tesseract能否设置为仅OCR (无图像修改)？

、、

有没有办法强制Tesseract只做OCR而保持原始图像不变？目前，我使用以下命令： tesseract -l eng file.tif file pdf 以便从多页tif文件中产生file.pdf。我对这个命令的问题是Tesseract会修改图像。例如，表示表格或某些图形的细线将被删除。我想停止这种行为，只对文本位于原始图像上的文档进行OCR。如果重要的话， $ tesseract -v tesseract 3.03 leptonica-1.71 libgif 4.1.6(?) : libjpeg 6b : libpng 1.6.16 : libtiff 4.0.3 : zlib 1.

浏览 4提问于2015-06-15得票数 1

1回答

Tesseract OCR不输出文件

C:\Program Files (x86)\Tesseract-OCR>tesseract C:\wamp64\www\test.jpg C:\wamp64\www\test pdf Tesseract Open Source OCR Engine v4.0.0.20181030 with Leptonica Warning: Invalid resolution 0 dpi. Using 70 instead. Estimating resolution as 279 那是我的代码。未创建任何文件。我不知道这段代码是怎么回事。我在目录中是Tesseract OCR (C:\Prog

浏览 1提问于2018-11-11得票数 0

3回答

用嵌入式字体从PDF文件中提取文本

、、、、

我有一个PDF文件包含一些表格数据。我必须从其中提取表格数据。我试过以下几点，但没有成功：选择文本并将其粘贴到记事本/excel工作表上。(我得到的是垃圾人物) 用作Acrobat的文本保存。它也是给垃圾字符，而不是实际的文本。尝试ApachePDFBox命令行实用程序从PDF中提取文本。它也是给垃圾字符，而不是真正的文本。最后，我正在尝试一个OCR解决方案。我正在使用.tif将pdf文件转换为ImageMagick图像，并通过tesseract OCR处理这些图像。然而，OCR解决方案并不十分精确(大约80%的单词匹配)。我尝试改变由PDF创建的图像的密

浏览 2提问于2012-09-07得票数 4

回答已采纳

1回答

测试pdf输出文件的较小大小

在扫描的图像之后，有一个选项来输出低分辨率的pdf图像和文本，pdf中的图像是如此巨大，以至于pdf的大小高达1 gb。使用cmd，如： tesseract testing/eurotext.png testing/eurotext-eng -l eng pdf

浏览 2提问于2019-12-10得票数 0

1回答

处理一个tif文件文件夹以创建可搜索的PDF文件。

、、、、

我正在工作的工作流程，以创建PDF可搜索的文件，再加上txt文件的识别文本从一堆缩微胶片卷的报纸。每个卷有近500张图像，如下所示：我要做的是：使用ScanTailor高级处理每个滚动，以便裁剪图像，分离奇数页和偶数页，为每个页面添加页边距，并输出tiff文件，得到以下结果然后，手动删除所有实际上不是报纸的页面(如滚动开始、滚动结束、建议和其他元图片)。然后，将一个报纸版的tif文件合并到一个文件中。例如，这份特定的报纸每版有4页。使用automator和Imagemagick，我编写了一个shell服务，作为输入从finder接收文件选择：用于"$

浏览 1提问于2020-03-09得票数 0

1回答

Yii2 Tesseract OCR失败与proc_open()：CreateProcess >失败，错误代码-5

、、

我正在与Tesseract合作，从图像中，甚至在pdf文件中使用thiagoalessio\TesseractOCR\TesseractOCR.However，插件，在我的测试中，我有问题，从图像中提取内容。这是我的代码： $tesseract = new TesseractOCR('C:\Users\users\Desktop\FolderName\text.png'); $tesseract->executable('C:\Program Files\Tesseract-OCR'); $tesseract->run(); 以下是错误：

浏览 14提问于2022-07-07得票数 0

3回答

如何从扫描的pdf中提取图像

、

我使用Tesseract从扫描的PDF中提取文本。其中一些文件还包含图像。有没有办法获得这些图片？我通过将扫描的pdf转换为tiff文件来准备tesseract。但我找不到任何命令行工具来从它们中提取图像，就像pdfimages对"text“pdf所做的那样。有没有一个工具(或工具的组合)可以帮助我完成这项工作？

浏览 2提问于2017-11-06得票数 5

1回答

扫描包含变量名的文件

、、

我有一段简单的代码，它当前使用tesseract OCR来读取任何给定图像中的文本，然后计算它产生了多少行。但是，我想在目录中搜索任何包含字符串(如M000123456)的文档，并返回名称中包含该字符串的文档数量，并将其与tesseract输出的数量进行比较。文档命名为liked so: M000123456_V987654_05-07-2000.pdf。做这件事最好的方法是什么？ import java.io.File; import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractExcep

浏览 15提问于2019-07-06得票数 0

1回答

tesseract 3.03 -输入jpg文件

、、

我想创建一个具有可选/可搜索文本的PDF。我有在光学字符识别之前经过一些预处理的source.png，然后我有view.jpg，这是一个压缩版本的source.png，以减少输出的PDF文件如何在语法中定义view.jpg？ tesseract -l eng source.png out pdf

浏览 3提问于2014-03-03得票数 0

1回答

如何将可搜索文本添加到图像中？

、

我需要添加文本到图像(原始图像可以是jpg，gif，或bmp)文件，我怎么做呢？我把带有快门的文本添加到一个jpg中，并转换成pdf格式。Tesseract无法将这些图像中的文本转换为真正的文本。添加已经可以搜索到图像的文本似乎更容易(而不是用OCR添加和处理文本)。我唯一的选择是创建一个pdf并将图像和文本添加到其中吗？如果是的话，我该怎么做？

浏览 0提问于2014-10-30得票数 1

1回答

如何测试多个.tif文件？

、、

一个自学成才的菜鸟。我正在使用Windows命令提示符运行Tesseract-ocr。我设法找到了正确的命令，以获得一个两层的pdf文件作为输出，其中包含原始扫描的页面，但也是可搜索的文本。 tesseract filename.tif output -l ita pdf 对我来说也很简单。但是，如何对文件夹中的所有200+ .tif文件重复此操作，而无需手动执行？对我来说，得到同样多的输出pdf或得到一个输出pdf都没有区别。感谢所有愿意帮助我的人。

浏览 34提问于2021-06-20得票数 0

1回答

tesseract的最小图像大小

、

我正在尝试使用tesseract来识别图像中的字符。这个图像是通过从另一个图像中抓取字符并将它们放在新图像中的一行中来创建的。问题是，当我将这个图像提供给tesseract时，它在输出中没有显示任何内容，但是当我将这个图像粘贴到另一个大小为640 x 480的图像中时，我得到了正确的结果。出现这种行为的原因是什么？我该如何解决这个问题呢？这里我漏掉了什么？不带输出的图像：输出正确的图像：

浏览 0提问于2018-05-31得票数 3

1回答

使用GNU并行组合两个命令用于OCR项目

、、、、

在编写文本文件之后，我想编写一个脚本，它运行一个命令到OCR pdfs，它删除结果图像。我想要组合的两个命令如下。此命令创建文件夹，从每个pgm中提取PDF并将它们添加到每个文件夹中： time find . -name \*.pdf | parallel -j 4 --progress 'mkdir -p {.} && gs -dQUIET -dINTERPOLATE -dSAFER -dBATCH -dNOPAUSE -dPDFSETTINGS=/screen -dNumRenderingThreads=4 -sDEVICE=pgmraw -r300 -dTex

浏览 1提问于2017-07-11得票数 1

1回答

如何获取pdf，并将其中的任何jpeg2000/jpx/jp2图像转换为jpeg图像？

、、、

我在Mac Mini上用的是Kindle Mojave，我用的也是一台旧的MacOS Dx，它不能读取jpeg2000图片。它也有太多或太大的jpeg图像的问题。我不能使用触摸屏，所以新的电子阅读器和平板电脑不是一个解决方案。到目前为止，我已经找到了一些错误的解决方案-- 我可以在-mode copy和-dev dx中使用with的k2pdfopt，它可以栅格化所有内容。这对于扫描的pdf来说是一个很好的解决方案。如果需要更多细节，则不带-dev dx的-mode copy将保留更高的分辨率。对于pdf-born-pdfs来说，这是最后的手段，因为文本可能更难看、更难读，文件大小可能会惊人

浏览 2提问于2020-06-16得票数 0

2回答

"sh: 1:不能打开/tmp/pdfsandwich4e375e.html:没有这样的文件“当使用pdfsandwitch时

我试图添加一个文本层到一些pdf文件，以使他们可以搜索。这一技术在德国的Ubuntu：http://wiki.ubuntuusers.de/pdfsandwich中得到了解释。安装依赖项后 sudo apt-get install imagemagick exactimage ghostscript tesseract-ocr 而pdfsandwich本身应该很简单，就像 pdfsandwich test.pdf 不过，我明白了： Input file: "test.pdf" Output file: "test_ocr.pdf" Number of pages

浏览 0提问于2013-06-16得票数 1

回答已采纳

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？即使它要经过两次，一次是笔直的文本，另一次是图像。

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

如何使用pytesseract从pdf文件的图像中提取文本

、、

我正在尝试使用下面的代码从pdf文件的图像中提取文本。PDF文件是合同文档，是合同的扫描副本。pdf文件中的所有页面都是图像。当我尝试使用下面的代码提取数据时，我得到一个错误，说它无法读取文件/无法识别图像文件。 try: import Image except ImportError: from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

浏览 3提问于2018-09-27得票数 0

1回答

如何快速从图像中扫描可搜索的pdf？

、、、、

我想扫描文件与tesseract框架中的迅速和生成pdf文件，可以搜索。实际上，我使用此代码将图像转换为文本，但我希望生成主格式的图片，但格式将随着转换为文本而改变，并生成pdf文件。我的代码是： func recognizeText(image:UIImage) ->String { var str = "0" if let tessaract = G8Tesseract(language: "eng") { tessaract.engineMode = .tesseractCubeCo

浏览 2提问于2020-10-13得票数 0

回答已采纳

1回答

Apache不对扫描的PDF进行索引。

、、、

我想索引扫描的PDF文件。我在Centos 6上安装了Solr 6.3.0，tesseract 3.04，轻子1.74。我已经测试了tesseract和solr的png，jpg和每件事看起来都很好。但是当我尝试索引扫描的PDF文件时，Solr不只是索引扫描图像只提取pdf评论消息()。(根据索引响应使用DefaultParser和PDFParser ) 在此之后，我搜索了问题，并找到了这个 (我测试了，它的工作！)但是，我无法将Java代码转换为Xml配置。如何将java代码设置为Xml配置文件？任何帮助都会很好！

浏览 1提问于2017-01-16得票数 0

3回答

如何改进印地语文本的提取？

、、

我正在尝试从PDF中提取印地语文本。我尝试了所有的方法从PDF中提取出来，但没有一种有效。有解释为什么它不起作用，但没有答案。因此，我决定将PDF转换成图像，然后使用pytesseract提取文本。我已经下载了印地语培训的数据，但这也提供了高度不准确的文本。这是PDF ()中的实际印地语文本：到目前为止，这是我的代码： import fitz filepath = "D:\\BADI KA BANS-Ward No-002.pdf" doc = fitz.open(filepath) page = doc.loadPage(3) # number of pa

浏览 15提问于2021-06-03得票数 9

回答已采纳

1回答

Python库或工具，可以在可搜索/可选择的PDF中获取包围框，而无需使用tesseract或任何其他与OCR相关的解决方案

、、、、

我找不到一个python脚本或库，或者一个工具，可以在一个可搜索/可选择的PDF文件中给我在文本周围的包围框。我发现的所有工具首先将PDF转换成图像，或者使用GhostScript或其他工具，然后使用OCR解决方案(如Tesseract )提取包围框。但是，是否有任何基于python的纯解决方案可以在可搜索/可选择的PDF中提取文本周围的边框。我试着寻找解决方案，并找到了一些，但他们使用的OCR服务，如Tesseract在某一时刻。以下是我找到的一些解决方案。

浏览 9提问于2022-11-10得票数 0

1回答

tesseract v3.03呈现PDF和可搜索文本示例

、、

在中，tesseract现在支持使用可搜索文本的呈现PDF输出，但我不知道如何在代码中使用这个特性。目前，我在我的安卓应用程序中使用，然后我就想知道这个功能能不能适用于安卓？如果您能给我一个使用tesseract api来呈现pdf的例子，那就太好了，然后我将尝试移植tess-two库缺少的函数。提前谢谢。 P/s:我可以看到文件，它可以处理呈现pdf输出，但我不知道如何使用基本api。更新：这是我的尝试： tesseract::TessResultRenderer* renderer = new tesseract::TessPDFRenderer(nat->api.GetD

浏览 1提问于2014-02-12得票数 7

1回答

Pytesseract image_to_string空输出

、、、、

我有一个从另一个图像裁剪的图像，我想将这个图像作为image_to_string方法的输入： import pytesseract import cv2 num_plate = cv2.imread('E:\Images\car_plate222.jpeg' , cv2.IMREAD_GRAYSCALE) pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' cv2.dilate(num_plate, (15, 15), num_plate)

浏览 0提问于2020-03-10得票数 1

1回答

用德国Fraktur编写的5800+ PDF的批处理OCR

、、、、

我想在Mac上使用开源命令行工具对OCR进行批处理，大约5800 PDF (每个PDF包含上一个问题的2到6页之间)。这次冒险的主要建议是，我想从所有这些PDF的文本中检索尽可能可靠的名字(最重要的是姓氏)。就是一个如何看待问题的例子。在这一点上，我不知道具体如何进行。你怎么做？我想首先将所有多页PDF转换为单个页面映像，作为png、jpg或tif，并使用以下命令将与一个PDF相关的所有图像移动到相应的文件夹中： time for i in *.pdf; do mkdir "${i%.pdf}"; convert -colorspace GRAY -resize 3000x

浏览 2提问于2017-06-29得票数 1

回答已采纳