pdf怎么用ocr - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

为什么pdf2image给我一个空白的图像文件？

、、、、

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。当我运行用木星编写的代码时：from PIL import Imageimport cv2我

浏览 10提问于2021-06-06得票数 2

1回答

更新多个列，使其与另一列相等

、

例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。OCR0000000001 Yes 100 06000093.pdfOCR0000000004 OCR0000000006 No 95

浏览 0提问于2014-03-22得票数 0

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

有没有办法检查FSCrawler会使用哪种pdf策略？

我正在使用FSCrawler的REST功能来扫描上传的PDF。我目前使用的是ocr pdf策略，但是ocr_and_text等待响应的时间太长了。我想把pdf同步地发送到fscrawler以使用文本提取，如果这不起作用，发送到一个异步的ocr后台任务。有没有办法用FSCrawler做到这一点？或者有没有办法拥有多个pdf策略？

浏览 6提问于2020-08-03得票数 1

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf

浏览 0提问于2022-11-30得票数 0

回答已采纳

2回答

使Tess4J从PDF文件中获取图像

、、、

如何让Tess4J从PDF文件中获取图像？我用Asprise测试了这个例子，但我在Tess4J上找不到任何这样的例子import com.asprise.util.ocr.

浏览 0提问于2013-05-16得票数 0

回答已采纳

1回答

检测景观格式的图像，并将其分割成两幅肖像。

、、、、

我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。for i in *.pdf; # Créer le fichier PDF avec OCR ocrmyp

浏览 2提问于2020-04-20得票数 1

11回答

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

、、、、

是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF？使用可搜索的PDF格式，我的意思是OCRed文本在原始文本上是不可见的，可以用鼠标选择并复制。我知道Linux上的gscan2pdf可以这样做，但是文本被放置在页面的左上角，而且太小了，与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR引擎。它应该将图像分解成小图像，用<

浏览 0提问于2014-04-20得票数 72

回答已采纳

1回答

检查是否已从Word/Google Docs导出PDF

、、、

我正在做一些OCRing PDF的工作，我很好奇是否有一种方法可以检查一个PDF是否已经从Word (或Google Docs)导出。我可以检查PDF是否已经用Xpdf的pdffonts进行了OCR。我知道Word和Google Docs会自动OCR导出的PDF，所以如果我发现PDF没有OCR，我就知道它没有导出。但是，如果它已经光学字符识别，有没有办法检查的PDF是否从Word/Google Docs导出

浏览 2提问于2013-06-14得票数 0

1回答

使用Ghostscript将扫描的PDF转换为纯文本

、、

我知道有一种方法可以使用将scannedPDF文档转换为OCR'd PDF文档，使用以下命令：它使用开源来做到这一点。根据，它可以转换成另一个PDF文档，而不仅仅是简单的文本(而tesseract也可以转换成纯文本)。看起来我遗漏了一些与用法相关的东西

浏览 1提问于2021-03-04得票数 0

1回答

将xml ocr/文本信息从一个pdf导入/嵌入到另一个pdf

、

我正在尝试优化图像扫描pdf的质量/文件大小，同时保持ocr质量。我可以尝试在高质量pdf文档的ocr之后进行下采样，但与使用photoshop和导出较低dpi/优化的页面并使用这些页面创建pdf相比，我使用的工具(主要是acrobat)不会创建较小的文件大小。如果可能的话，一个更好的解决方案是获取一个已经ocr的image-pdf文档(对于当前情况是800m)，并将ocr层应用于较低rez下采样的文档。我可以用p

浏览 3提问于2012-07-16得票数 1

1回答

如何判断特定字体是否包含PDF::API2中的特定字符

、、、、

我在Perl应用程序中使用PDF::API2将OCR输出嵌入到相应的图像后面，这样就可以搜索得到的PDF，因为可以用pdftotext提取OCR输出。目前，只要应用程序在OCR输出中看到非ASCII字符，它就会从PDF核心字体切换到TTF。然而，这真的很麻烦，因为核心字体包括大多数西欧字符。TTF仅对希腊语、俄语、日语等语言是必需的。

浏览 0提问于2012-02-21得票数 4

2回答

在PDF上使用Asprise和Java的OCR

、

在这里，我是新手，我在编译代码时遇到了这个错误： PDFReader reader = new PDFReader(new File("CBufferedImage image = reader.getPageAsImage(i); /////null pointer exception here System.out.println("OCRresult:\n" +

浏览 1提问于2014-02-24得票数 0

7回答

如何将pdf转换成文本可搜索的pdf？

、、

我有一些扫描文件的pdf，我想能够搜索他们。我怎么能这么做？治夹心三明治 (软件中心说它是一个很差的软件包，我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt，但在导出到pdf<

浏览 0提问于2014-05-29得票数 36

回答已采纳

1回答

上传pdf文件与gdata docs python v3.0与ocr

、、、、

我已经获得了以下用于将pdf文件上传到google docs的实现(取自gdata API示例)： """Upload a document,doc, media=media)现在，我想对上传的文件执行OCR但是我不确定如何在gdata文档python API中启用OCR识别。所以我的问题是

浏览 0提问于2011-12-31得票数 2

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

2回答

如何用魔杖改变图片的对比度？

、、、、

下面的图片用在Tesseract OCR上：我处理图片的代码是：with image[450:6200, 840:3550] as cropped: image = Image.open(io.BytesIO(imageBlob))虽然我的OCR有时会混淆和复制8与3，并返回07:44/14:183而不是0

浏览 5提问于2020-01-07得票数 1

回答已采纳

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么pdf2image给我一个空白的图像文件？

更新多个列，使其与另一列相等

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

有没有办法检查FSCrawler会使用哪种pdf策略？

运行反引号/exec()时的PHP路径问题

在终端中运行命令，并在输出中包含输入名

使Tess4J从PDF文件中获取图像

检测景观格式的图像，并将其分割成两幅肖像。

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

检查是否已从Word/Google Docs导出PDF

使用Ghostscript将扫描的PDF转换为纯文本

将xml ocr/文本信息从一个pdf导入/嵌入到另一个pdf

如何判断特定字体是否包含PDF::API2中的特定字符

在PDF上使用Asprise和Java的OCR

如何将pdf转换成文本可搜索的pdf？

上传pdf文件与gdata docs python v3.0与ocr

在r中的pdf上执行ocr时出错

如何用魔杖改变图片的对比度？

更改windows批处理中的文件扩展名

带有图像的PDF文件的OCR

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐