OCRmyPDF无输出

文章/答案/技术大牛

发布

1回答

、、、、

我正在使用OCRmyPDF从扫描的pdf文件中提取文本。为此，我使用了this Colab notebook中的代码。到我运行的时候，一切看起来都很好： os.system(f'ocrmypdf {file_name} output.pdf') 而不是0，我得到了512！下一行，当我运行!ocrmypdf Performance Evaluations.pdf output.pdf时，我得到一条无法识别的错误消息，如下所示： usage: ocrmypdf [-h] [-l LANGUAGEskip-r

浏览 30提问于2021-01-05得票数 1

回答已采纳

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话：但是没有输出，保持输

浏览 0提问于2022-11-30得票数 0

回答已采纳

1回答

bash脚本通过Docker调用OCRmyPDF的错误响应

、、、

编辑(更新)：通过持续搜索和测试，我发现问题似乎在于$PWD (或$(dirs -l)或$(pwd))的输出被$PWD解释为相对路径，尽管它实际上是绝对的。然而，复制的，然后粘贴的$PWD，$(dir，-l)，$(pwd)的输出仍然运行得很好。这个终端打印输出与bash传递给坞的同一个变量有什么不同？ #!“，如果将回显输出复制到终端中，

浏览 0提问于2015-05-13得票数 2

1回答

无法通过sh / crontab启动python程序

、、、

我尝试从脚本或cronjob启动一个名为ocrmypdf的python程序。它从终点站运行得很好，usage: ocrmypdf [-h] [--verbose [VERBOSE]] [--version] [-L FILE]pi@piscan:~ $ sh ocrmypdfpi@piscan:~ $ which ocrmypdf /usr/local

浏览 4提问于2016-01-02得票数 0

回答已采纳

1回答

在Python中将文本转换为DataFrame时数据自动隐藏

、

下面的代码是为打印提取的数据和输出也给出的。import osimport pdfplumberos.system(f'ocrmypdf {path} output.pdf')invoice= pdfplumber.open("output.pdf") count_pages= len(invoice.

浏览 11提问于2022-03-31得票数 -1

回答已采纳

1回答

在Python中导入Visual Stdio代码中的ocrmypdf

、、

我想导入ocrmypdf。我已经使用pip install --upgrade --user ocrmypdf安装了这个包但当我尝试使用以下命令在VSC中导入时： import ocrmypdf 它捕获到错误： [WinError~\AppData\Roaming\Python\Python38\site-packages\ocrmypdf\__init__.py in <module> 11 from <e

浏览 57提问于2021-06-22得票数 0

回答已采纳

1回答

使用从扫描PDF批量生成的OCR创建可搜索的PDF文件

、

其目标是自动将所有扫描文档转换为可搜索的PDF文件，而不仅仅是图像。扫描后的文档由扫描仪自动上传到Linux服务器上的共享文件中，作为PDF文件。要求：在后台自动工作，不需要任何额外的手动步骤。能够处理多页PDF文件

浏览 0提问于2014-04-28得票数 16

1回答

AttributeError:模块“ocrmypdf”没有属性“ocr”

、、

我正在使用ocrmypdf库将扫描的pdf转换成可搜索的pdf，但我得到了这个错误。这是我目前正在运行的代码ocrmypdf.ocr('/content/drive/MyDrive/Dataset 2020/OCR/1081975.pdf', 'output.pdf')AttributeError: module 'ocrmypdf' has no attri

浏览 5提问于2020-11-24得票数 1

回答已采纳

1回答

如何创建高保真度PDF与可复制文本扫描？

、、、

一些公司通过扫描仪提供Windows软件，这些软件可以从扫描过的页面上创建PDF，这些页面看起来与扫描的内容完全一样(就好像它只是全页图像)，但文本是可以识别和复制的。请注意，我不希望将扫描文本转换为常规文本。我想保持PDF外观的图片-完美的原始页面，但增加了一个公认的文本层，以方便使用。*即佳能与LiDE 220

浏览 0提问于2017-09-24得票数 4

回答已采纳

2回答

如何使用gnu并行编写批处理命令？

、、、、

我正在尝试使用一个名为ocrmypdf的包进行批处理。下面是一个可以处理1pdf文件的命令这里有一个命令，它可以处理我们运行它的目录中的所有pdf文件。parallel --tag -j 2 ocrmypdf '{}' 'output/{}' ::: *.pdf 现在，我实际上想对目录中的所有pdf文件运行这个命令。这个需要多一个参数。ocrmypdf --sidecar txt/input.txt i

浏览 9提问于2021-10-14得票数 1

2回答

例如OCRMYPDF模块

、

我已经读到了ocrmypdf模块，可以用来解决这个问题。但是，由于我的知识有限，我不知道如何编写代码。我期望输出将扫描的pdf转换为可搜索的pdf。

浏览 0提问于2019-08-08得票数 4

1回答

运行OCRmyPDF时出现的问题: WinError2和无效版本号

、、、、

脚本组合到OCR，一个PDF：from tika import parserimport img2pdf ocrmypdf.ocr(pdf_file_path, '.pdf_file_path) return raw_pdf['content'

浏览 3提问于2021-06-14得票数 1

回答已采纳

2回答

如何使用ocr脚本进行扫描

、、、、

device "brother4:net1;dev0" --progress --verbose --resolution=600 -l 0 -t 0 -x 210 -y 297 --format=pdf)" ocrmypdfnet1;dev0" --progress --verbose --resolution=600 -l 0 -t 0 -x 210 -y 297 --format=pdf > scan.pdf && ocrmypdf或者可能是可能的--没有找到方法--将文件管道到oc

浏览 0提问于2023-04-26得票数 0

1回答

程序'tesseract‘无法执行或在您的系统路径上找不到- Laravel

、、

Traceback (most recent call last): File "ocrmypdf/subprocess/__init__.py",line

浏览 61提问于2021-07-22得票数 0

1回答

在Windows Server 2016上安装OCRmyPDF* -找不到liblept.dll。编辑路径安全吗？*

、、

我正在尝试使用Python37-32在我公司客户的Windows Server 2016Build 14393计算机上导入ocrmypdf。Ocrmypdf是Linux开发的Python3包。根据文档()，它不支持Windows。建议的解决方法是docker容器和Linux的Windows子系统。ocrmypdf仍然给出同样的错误。仔细阅读这一讨论，就会发现find_library在Windows上的操作方式不同。pip install ocrmypdf上述代码的预期结果

浏览 18提问于2019-11-05得票数 0

回答已采纳

1回答

找不到源-pdf？

、、、、

我想用格拉姆普df将一些pdf文件从图片转换成可读的pdf-import ocrmypdf__name__ == '__main__': ocrmypdf.ocrFile "C:\Users\Polzi\Documents\DEV\

浏览 0提问于2022-01-14得票数 1

回答已采纳

1回答

命令行有效，但使用output_type="pdf“时缺少文本层

最近，我从ocrmypdf 9.0.3/tesseract 4.x升级到了ocrmypdf 13.4.1/tesseract 5.1。当使用cremypdf9.x或13.x时，这在cli上起作用：但是，当我在应用程序中使用API时， ocrmypdf.ocr("path/to/inputfile.pd

浏览 2提问于2022-03-25得票数 0

1回答

升级后，homebrew ocrmypdf出现致命的Python错误: config_get_locale_encoding:无法获取区域设置编码: nl_langinfo

、、

自从我升级了homebrew (在macOS Catalina15.5上)，ocrmypdf出现了一个奇怪的错误。我发出了ocrmypdf % ocrmypdf Fatal Python error: config_get_locale_encoding

浏览 80提问于2020-07-14得票数 1

1回答

由于线程的原因，按钮回调只能工作一次

、、、

(files[0], new_file, use_threads=True) elif len(files) > 1:for f in files:

浏览 19提问于2020-10-18得票数 2

回答已采纳

1回答

AttributeError：“NoneType”对象没有属性“语言”

Traceback (most recent call last): File "ocrmypdf\api.py", line 340, in ocrAttributeError: 'NoneTypeimport ocrmypdf import ca

浏览 11提问于2022-07-06得票数 0

点击加载更多