pdf如何转ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

、、、、

我对一些pdf文件有问题。我需要将它们转换为jpg图像，使它们可用于OCR，但当我转换其中的一些，魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为pdf文件的文件中，其中空间颜色变成了CMYK。Tesseract OCR仅接受空间颜色RGB。我已经写了一个可以转换的python脚本，但我想解决这个问题。你能帮我一下吗？原页pdf ? 已将pdf转换为jpg

浏览 51提问于2019-04-22得票数 1

回答已采纳

1回答

在PDF中用python执行OCR有可能吗？

、、、

在PDF中用python执行OCR有可能吗？我正在尝试构建一个程序，从每一个PDF表格中提取一些信息，比如Autodesk BIM360所做的事情。

浏览 6提问于2022-05-26得票数 -2

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

在修改和部署更新之后，查询非常缓慢。

查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_ocr_pending,dv.time,dv.label,dv.is_pdf_broken,dv.is_pdf_scan,dv.ocr_recall_id,dv.ocr_vatno,cv.name ocr_vatno_name,dv.ocr_vatno_country,dv.ocr_is_vatno_verified,dv.ocr

浏览 0提问于2019-01-06得票数 0

回答已采纳

1回答

从PDF中获取树的文件(最好使用Python)

、、、、

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。我试图使用python提取相关信息和树，但我遇到了麻烦。我怎样才能从这个PDF中获取我想要的文件呢？能用Python完成吗？还有更简单的方法吗？或者，我获得PDF的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP

浏览 0提问于2018-09-20得票数 0

回答已采纳

3回答

如何使用任何Java库使现有的PDF文本可搜索？用OCR

、、

如何使用任何java库生成可搜索的文本？开源或付费。如何使用PDFBox将OCR应用于pdf？如何使pdf文本可编程搜索使用pdfbox，我搜索了很多。没有找到任何解决办法。有人能粘贴OCR PDFBox的代码吗？

浏览 8提问于2014-04-04得票数 0

回答已采纳

2回答

在WinForm中寻找OCR库

、、

是否有任何免费/付费的OCR库能够捕获PDF格式的发票数据？需要有一个低的错误率。我们需要对这些数据进行进一步的处理。

浏览 0提问于2019-06-10得票数 1

1回答

如何区分PHP中的“文本”PDF和“图像”PDF？

、、、、

当我已经知道PDF是基于文本还是基于图像时，这两种解决方案都能很好地工作。但是，为了自动化将许多PDF转换为文本的过程，我需要能够判断PDF是基于文本的还是基于图像的，这样我就知道在PDF上运行哪一组进程。在PHP中有没有任何方法来分析一个PDF并判断它是基于文本的还是基于图像的，这样我就知道是使用Xpdf还是Ghostscript/Tesseract了？

浏览 5提问于2016-09-23得票数 1

回答已采纳

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

1回答

如何将jpg文件目录转换为以文件名为书签的pdf？

、、

如何将它们转换为一个将文件名作为书签的pdf文件？ (我最终也想加入ocr。如前所述，我们可以使用.jpg将.pdf文件转换为img2pdf .jp --output combined.pdf，然后可以使用ocrmypdf combined.pdf combined_ocr.pdf添加ocr。我的问题主要是如何确保pdf文件有书签(由文件名创建)，以便文档易于浏览。

浏览 0提问于2021-09-23得票数 0

3回答

具有自动旋转支撑的.TIFF图像OCR软件

、、、

是否有任何应用程序(例如Acrobat )可以使用OCR自动旋转它们，以确保它们的文本朝右？我知道有一种方法可以通过命令行界面来实现，但是我真的很想找到一个带有GUI的应用程序。

浏览 0提问于2016-06-30得票数 0

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

7回答

如何将pdf转换成文本可搜索的pdf？

、、

我有一些扫描文件的pdf，我想能够搜索他们。我怎么能这么做？治夹心三明治 (软件中心说它是一个很差的软件包，我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt，但在导出到pdfGscan

浏览 0提问于2014-05-29得票数 36

回答已采纳

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

用于文件检索的“登录”

、

假设我有30个等级考试，都是OCR评分和PDF格式的注解。我怎么能让学生们取回它呢？我的第一个想法是将所有文件转储到我的网站/~name/handback/，然后创建一个java脚本输入框，要求输入学生编号x，然后打开相应的x.pdf。如果我让每个学生在学期开始时给我一个密码，我如何存储和使用它们？有人能提供一个最低限度的工作示例或资源，我可以学习如

浏览 2提问于2016-06-23得票数 0

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

3回答

如何使用TesseractOCRParser和Tika命令行实用工具启用TikaConfig？

、、、、

我已经安装了apache 1.8，它运行得非常完美，除非OCR部件不能工作。我安装了Tesseract，它也在正常工作。当我试图发送一个有图像的pdf时，我得到以下信息。警告:除非您将TesseractOCRParser从默认解析器中排除在外，否则将安装Tesseract OCR并将其自动应用于图像f iles。这里有一些关于如何使用命令行实用程序和TikaConfig的信息，但我不知道如何使用它启用TesseractOCRParser。任何帮助，都非常感谢。

浏览 1提问于2018-08-02得票数 3

回答已采纳

点击加载更多

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

在PDF中用python执行OCR有可能吗？

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

运行反引号/exec()时的PHP路径问题

如何使用doc取器在PDF文件中搜索文本？

在修改和部署更新之后，查询非常缓慢。

从PDF中获取树的文件(最好使用Python)

如何使用任何Java库使现有的PDF文本可搜索？用OCR

在WinForm中寻找OCR库

如何区分PHP中的“文本”PDF和“图像”PDF？

在终端中运行命令，并在输出中包含输入名

如何将jpg文件目录转换为以文件名为书签的pdf？

具有自动旋转支撑的.TIFF图像OCR软件

在r中的pdf上执行ocr时出错

更改windows批处理中的文件扩展名

如何将pdf转换成文本可搜索的pdf？

带有图像的PDF文件的OCR

用于文件检索的“登录”

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

如何使用TesseractOCRParser和Tika命令行实用工具启用TikaConfig？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐