pdf为ocr - 腾讯云开发者社区

我正在使用Microsoft Azure Computer Vision进行OCR PDF提取。当我尝试执行OCR时，它给出的错误为 Read PDF With OCR: Error performing OCR: MicrosoftAzureComputerVisionErrorRunEngine

浏览 31提问于2020-07-01得票数 0

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

2回答

我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描，同时使用Foxit PhantomPDF向PDF中的图像添加文本。这两种解决方案都带来了不错的OCR，但是也有一些缺陷，比如在非文本上出现错误，或者99%的文本在页面上被漏掉，因为页面的角落中有3-4个单词与页面上的所有其他文本一样，它们都是90度旋转的。最先进的OCR解决方案是将图像转换为可搜索的PDF，还是将(隐藏的)文本添加到仅包含图像的现有PDF中(添加搜索功能)？

浏览 0提问于2018-05-25得票数 0

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

1回答

无法对内容复制设置为不允许的PDF文件执行OCR

、、、

由于安全原因，我无法上传PDF文件，但可以创建一个内容复制设置为不允许的pdf文件，然后尝试对此文件执行OCR。OCR返回一个错误，指出文件受密码保护或类似的东西。谁能告诉我有没有一种方法可以对这样的文件执行OCR？

浏览 5提问于2020-07-19得票数 2

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

2回答

是否有将我的图像/文档标准化为PDF的.NET库？

、、

我需要一个工具或库，将摄取该文件和执行OCR，如果必要，但保存作为一个标准化的PDF文件存档的目的(PDF/A)。是否有一个工具或.NET库可以实现这一点？如果文档已经可搜索，则不应再次使用OCR。

浏览 0提问于2021-02-22得票数 2

1回答

将xml ocr/文本信息从一个pdf导入/嵌入到另一个pdf

、

我正在尝试优化图像扫描pdf的质量/文件大小，同时保持ocr质量。我可以尝试在高质量pdf文档的ocr之后进行下采样，但与使用photoshop和导出较低dpi/优化的页面并使用这些页面创建pdf相比，我使用的工具(主要是acrobat)不会创建较小的文件大小。如果可能的话，一个更好的解决方案是获取一个已经ocr的image-pdf文档(对于当前情况是800m)，并将ocr层应用于较低rez下采样的文档。我可以用pdfminer成功

浏览 3提问于2012-07-16得票数 1

1回答

我想将tika解析配置为仅在PDF上执行OCR

、、

我正在尝试操作tika配置文件(使用tika服务器)，以便从OCR处理中排除除PDF之外的所有文档。我尝试了许多组合，例如从默认解析器中排除OCR，但将PDF解析器配置为进行内联处理。我从默认解析器中排除了PDF和Tesseract。不走运。我最终运行了两个tika实例，一个配置了OCR，另一个没有配置，并根据扩展名将文件定向到代码中的一个或另一个。

浏览 31提问于2020-08-27得票数 0

2回答

CodeIgniter base_url()用于href，getcwd()用于file_exists()

、

在视图中，我希望同时显示一个内联PDF-查看器(使用<object src=''></object>)和OCR‘’ed输出。控制器中的代码可以概括如下： * Fetch the path to the pdf of the document (OCR is preferred) $ocr_src = ge

浏览 3提问于2016-10-18得票数 0

回答已采纳

1回答

更新多个列，使其与另一列相等

、

例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。OCR0000000001 Yes 100 06000093.pdfOCR0000000004 OCR0000000006 No 95

浏览 0提问于2014-03-22得票数 0

1回答

.NET库，用于将文档扫描到可搜索的PDF(带有条形码支持)

、、

我需要开发一个应用程序，可以扫描文档并生成可搜索的PDF，可以从桌面应用程序(例如WPF)或web浏览器预览。还可以从扫描的文档中扫描条形码。要求：生成可搜索的PDF (OCR) 从扫描文件中扫描条形码。(仅限窗户)(桌面应用程序)用于预览PDF的嵌入式web浏览器。

浏览 0提问于2020-02-03得票数 1

1回答

如何快速从图像中扫描可搜索的pdf？

、、、、

我想扫描文件与tesseract框架中的迅速和生成pdf文件，可以搜索。实际上，我使用此代码将图像转换为文本，但我希望生成主格式的图片，但格式将随着转换为文本而改变，并生成pdf文件。

浏览 2提问于2020-10-13得票数 0

回答已采纳

1回答

如何区分PHP中的“文本”PDF和“图像”PDF？

、、、、

当我已经知道PDF是基于文本还是基于图像时，这两种解决方案都能很好地工作。但是，为了自动化将许多PDF转换为文本的过程，我需要能够判断PDF是基于文本的还是基于图像的，这样我就知道在PDF上运行哪一组进程。在PHP中有没有任何方法来分析一个PDF并判断它是基于文本的还是基于图像的，这样我就知道是使用Xpdf还是Ghostscript/Tesseract了？

浏览 5提问于2016-09-23得票数 1

回答已采纳

1回答

两种输入文件类型同时在GNU并行？

、、、

-l deu_frak && rm {.}.pgm' export -f generate_pgm PGM="$1" find .{}; par

浏览 2提问于2017-07-25得票数 1

1回答

Azure计算机视觉返回带有矢量图形的pdf的垃圾

、

Azure Computer Vision (OCR) API为发送的pdf片段返回垃圾。Pdf有一个可见的文本，比方说：4893759678，但实际上它是矢量图形(不是文本)。对于有数字图像(光栅图形)的pdf中的某些部分，它确实分析ok；它返回ocr文本。如何修复它或如何指示Azure为矢量图形做ocr。我不能轻易地改变pdfs本身。

浏览 3提问于2021-10-19得票数 1

回答已采纳

点击加载更多