pdf ocr编辑 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

将扫描的pdf转换为R中可搜索的pdf

、

我有一个pdf，大约50页扫描表。我需要最终把它刮到R中，这样我就可以清理数据并将其导出为.csv。环顾在线，我所能得到的最远就是将扫描的pdf作为一个字符对象读取到R中，但这会使格式发生很大的变化，因此表中的列都错对齐了，并出现了无序。有没有一种方法可以将扫描的pdf转换成可读的pdf，这样我就可以在tabulizer中抓取它了？还是另一种将扫描的pdfs抓取到表中的方法？

浏览 5提问于2022-11-16得票数 0

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

用c#编程编辑PDF (非固定PDF)

、、、、

是否可以编辑在C#中不可填充的PDF格式所需经费：必须编辑以编程方式填写的表格中的文本和数据，并保存它。

浏览 6提问于2012-06-28得票数 1

1回答

关于一个好的自由软件/网站将pdf转换为EPUB的建议

、

我发现，当我将一个包含大量文本的pdf文件转换成EPUB格式(例如书籍)时，它们会在同一句话之间被分割成段落，我使用过-量程，Toepub.com和许多在大坏网站上可以找到的网站;-)。

浏览 0提问于2019-11-14得票数 0

1回答

如何从pdf文件的图像中提取文本？

一切正常，但它不是从pdf文件中提取的图像。Tika可以从pdf和图像中提取文本，但不能从包含图像的pdf中提取文本。我有点困惑。有没有办法做到这一点？是否需要将PDF文件转换为图像？

浏览 3提问于2018-10-11得票数 1

2回答

Powershell和Adobe

、

我们有许多pdf文件，它们都是解锁的，它们都有文本、图片等，每次我们必须打开adobe上的文件并手动打开它们时，我想也许有一个更好的方法来处理PowerShell，如果不是的话，我们必须做超过1000个文件

浏览 7提问于2021-12-22得票数 -2

回答已采纳

2回答

如何通过API网关将AWS Lambda中的"pdf“和"html”文件作为“事件”传递？

、、、

我试图将"pdf“或"html”文件直接传递到lambda函数中。但是我不明白它应该以什么正确的格式接收？我能够理解如何使用以下代码通过lambda函数传递“图像”文件:但是如何发送pdf或html文件呢？(img): return ocr_text except Ex

浏览 1提问于2020-05-06得票数 0

回答已采纳

1回答

如何下载谷歌扫描的.pdf OCRed？

、

我有一个电子邮件与扫描的.pdf附加在我的Gmail帐户。当我点击“查看”，我看到谷歌有OCRed它。当我单击“下载”时，PDF是原始的，即不包含OCRed。如何通过谷歌下载内容为.pdf的OCRed文件？

浏览 0提问于2012-11-26得票数 2

2回答

如何在pdf文件中复制图像中的文本？

、、

我可以使用evince文档查看器使用文本查看pdf图像，但是我不能选择图像中的文本来复制和粘贴。如何在pdf文件中从图像中复制文本？

浏览 0提问于2014-09-19得票数 0

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

2回答

可选择文本的PDF查看器

在Ubuntu源代码中有一个很好的PDF查看器可以让我选择和复制文本吗？Okular是一个很好的应用程序，因为它拥有比Document更多的工具。然而，我真正需要做的就是从pdf中选择和复制文本。有什么能让我这么做？

浏览 0提问于2015-12-15得票数 7

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

1回答

如果无法删除文件，请等待，然后再试一次。

中暂时不可用的资源使用&和2>&1 &，这应该会迫使PHP等待脚本完成，但事实并非如此。因此，我的问题是:是否有办法这样做，迫使PHP等待直到执行完成；或者，我如何让PHP等待，例如，10秒，在删除失败时再试一次(如果再次失败，则再等待) 编辑:执行删除：unlink("temp/1.

浏览 2提问于2018-11-13得票数 0

回答已采纳

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

11回答

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

、、、、

是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF？使用可搜索的PDF格式，我的意思是OCRed文本在原始文本上是不可见的，可以用鼠标选择并复制。我知道Linux上的gscan2pdf可以这样做，但是文本被放置在页面的左上角，而且太小了，与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR引擎。它应该将图像分解成小图像，用单行文本或小段落发送到<em

浏览 0提问于2014-04-20得票数 72

回答已采纳

1回答