pdf文件ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=kon

浏览 0提问于2022-11-30得票数 0

回答已采纳

3回答

更改windows批处理中的文件扩展名

、、、

我正在尝试重命名很多文件。到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

1回答

将扫描的pdf转换为R中可搜索的pdf

、

我有一个pdf，大约50页扫描表。我需要最终把它刮到R中，这样我就可以清理数据并将其导出为.csv。环顾在线，我所能得到的最远就是将扫描的pdf作为一个字符对象读取到R中，但这会使格式发生很大的变化，因此表中的列都错对齐了，并出现了无序。有没有一种方法可以将扫描的pdf转换成可读的pdf，这样我就可以在tabulizer中抓取它了？还是另一种将扫描的pdfs抓取到表中的方法？

浏览 5提问于2022-11-16得票数 0

1回答

两种输入文件类型同时在GNU并行？

、、、

-l deu_frak && rm {.}.pgm' b) 首先将所

浏览 2提问于2017-07-25得票数 1

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：删除PDF原始文件中的

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

使用python从PDF中提取扫描页面

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

在子文件夹中批处理OCR文件，并以新名称保存新文件

、、、、

我有以下代码，OCR的所有PDF文件都在一个特定的文件夹中(d：\exttmp2)，但它没有按我的意愿重命名这些文件，也没有将新文件放在正确的位置。目前，所有文件都在‘exexttmp2’的子文件夹中。 OCR运行正常，但我希望将OCR‘’ed文件重命名为：<parent folder path>-<filename>_ocred.pdf。它还将文件

浏览 2提问于2021-06-09得票数 0

回答已采纳

1回答

检测景观格式的图像，并将其分割成两幅肖像。

、、、、

我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。for i in *.pdf; # Créer le fichier PDF avec OCR ocrmyp

浏览 2提问于2020-04-20得票数 1

1回答

如何将jpg文件目录转换为以文件名为书签的pdf？

、、

我有一个目录的jpg文件，是扫描我的手写笔记。如何将它们转换为一个将文件名作为书签的pdf文件？ (我最终也想加入ocr。如前所述，我们可以使用.jpg将.pdf文件转换为img2pdf .jp --output combined.pdf，然后可以使用ocrmypdf combined.pdf combined_ocr.pdf添加ocr。我的问题主要是如何确保<e

浏览 0提问于2021-09-23得票数 0

1回答

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

、、、

我想使用Google 将不可搜索的PDF转换成可搜索的PDF，其中的文本是覆盖在PDF上的。 PDF位于我的谷歌驱动器，我不想上传文件到另一个网站或下载的文件，以进行转换。我没有找到任何显示文本可以被覆盖的资源，类似于Acrobat如何进行OCR转换。那么，是否有可能使用气体进行覆盖呢？我只看到人们转换成文本或文档文件。

浏览 1提问于2019-07-09得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

我试图从命令行运行一个java jar文件，在执行过程中它会给出一个路径。在这条路径上，他们是空格，这是导致问题的原因。即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;endforeach; 如果您可以看到子文件

浏览 1提问于2010-04-15得票数 0

11回答

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

、、、、

是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF？使用可搜索的PDF格式，我的意思是OCRed文本在原始文本上是不可见的，可以用鼠标选择并复制。我知道Linux上的gscan2pdf可以这样做，但是文本被放置在页面的左上角，而且太小了，与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR引擎。它应该将图像分解成小图像，用单行文本或小段落发送到<em

浏览 0提问于2014-04-20得票数 72

回答已采纳

1回答

从PDF中获取树的文件(最好使用Python)

、、、、

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。我试图使用python提取相关信息和树，但我遇到了麻烦。我怎样才能从这个PDF中获取我想要的文件呢？能用Python完成吗？还有更简单的方法吗？或者，我获得PDF的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP

浏览 0提问于2018-09-20得票数 0

回答已采纳

1回答

更新多个列，使其与另一列相等

、

其中一份文件是原件。我需要更新我的表，以使组Id等于原始文档。因此，如果所有文档属于同一组，则它们必须具有相同的统一标题。例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。OCR0000000001 Yes 100 06000093.pdfOCR0000

浏览 0提问于2014-03-22得票数 0

4回答

如何识别需要OCR的PDF文件？

、

我有超过30,000个pdf文件。有些文件已经是OCR，有些则不是。有没有办法找出哪些文件已经OCR，哪些pdf只有图像？如果我通过OCR处理器运行每个文件，这将是永远不会发生的。

浏览 8提问于2011-10-12得票数 9

回答已采纳

1回答

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

、

我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy", "no_ocr" 响应

浏览 48提问于2021-06-02得票数 0

3回答

为什么pdf2image给我一个空白的图像文件？

、、、、

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-OCR/tesseract.exe" images =

浏览 10提问于2021-06-06得票数 2

7回答

如何将pdf转换成文本可搜索的pdf？

、、

我有一些扫描文件的pdf，我想能够搜索他们。我怎么能这么做？治夹心三明治 (软件中心说它是一个很差的软件包，我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt，但在导出到pdf<

浏览 0提问于2014-05-29得票数 36

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_Fi

浏览 3提问于2017-09-20得票数 0

点击加载更多

在终端中运行命令，并在输出中包含输入名

更改windows批处理中的文件扩展名

将扫描的pdf转换为R中可搜索的pdf

两种输入文件类型同时在GNU并行？

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

如何使用doc取器在PDF文件中搜索文本？

使用python从PDF中提取扫描页面

在子文件夹中批处理OCR文件，并以新名称保存新文件

检测景观格式的图像，并将其分割成两幅肖像。

如何将jpg文件目录转换为以文件名为书签的pdf？

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

运行反引号/exec()时的PHP路径问题

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

从PDF中获取树的文件(最好使用Python)

更新多个列，使其与另一列相等

如何识别需要OCR的PDF文件？

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

为什么pdf2image给我一个空白的图像文件？

如何将pdf转换成文本可搜索的pdf？

在r中的pdf上执行ocr时出错

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐