ocr将pdf转 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

在PDF中用python执行OCR有可能吗？

、、、

在PDF中用python执行OCR有可能吗？我正在尝试构建一个程序，从每一个PDF表格中提取一些信息，比如Autodesk BIM360所做的事情。

浏览 6提问于2022-05-26得票数 -2

2回答

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

、、、、

我对一些pdf文件有问题。我需要将它们转换为jpg图像，使它们可用于OCR，但当我转换其中的一些，魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为pdf文件的文件中，其中空间颜色变成了CMYK。Tesseract OCR仅接受空间颜色RGB。我已经写了一个可以转换的python脚本，但我想解决这个问题。你能帮我一下吗？原页pdf ? 已将pdf转换为jpg

浏览 51提问于2019-04-22得票数 1

回答已采纳

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：删除PDF原始文件中的/PDF-扫描&

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

在修改和部署更新之后，查询非常缓慢。

查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_ocr_pending,dv.time,dv.label,dv.is_pdf_broken,dv.is_pdf_scan,dv.ocr_recall_id,dv.ocr_vatno,cv.name ocr_vatno_name,dv.ocr_vatno_country,dv.ocr_is_vatno_verified,dv.ocr

浏览 0提问于2019-01-06得票数 0

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

AttributeError:模块“ocrmypdf”没有属性“ocr”

、、

我正在使用ocrmypdf库将扫描的pdf转换成可搜索的pdf，但我得到了这个错误。这是我目前正在运行的代码ocrmypdf.ocr('/content/drive/MyDrive/Dataset 2020/OCR/1081975.pdf', 'output.pdf')AttributeError: module '

浏览 5提问于2020-11-24得票数 1

回答已采纳

1回答

两种输入文件类型同时在GNU并行？

、、、

-l deu_frak && rm {.}.pgm' export -f generate_pgm PGM="

浏览 2提问于2017-07-25得票数 1

1回答

如何将jpg文件目录转换为以文件名为书签的pdf？

、、

如何将它们转换为一个将文件名作为书签的pdf文件？ (我最终也想加入ocr。如前所述，我们可以使用.jpg将.pdf文件转换为img2pdf .jp --output combined.pdf，然后可以使用ocrmypdf combined.pdf combined_ocr.pdf添加ocr。我的问题主要是如何确保pdf文件有书签(由文件名创建)，以便文档易于浏览。

浏览 0提问于2021-09-23得票数 0

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

2回答

如何向只包含图像的PDF中添加文本？

、

我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描，同时使用Foxit PhantomPDF向PDF中的图像添加文本。这两种解决方案都带来了不错的OCR，但是也有一些缺陷，比如在非文本上出现错误，或者99%的文本在页面上被漏掉，因为页面的角落中有3-4个单词与页面上的所有其他文本一样，它们都是90度旋转的。最先进的OCR解决方案是将图像转换为可搜索的PDF，还是将(隐藏的)文本添加到仅包含图像的现有PDF中(添加搜索功能)？

浏览 0提问于2018-05-25得票数 0

2回答

如何将pdf格式转换为eBook格式

、

是否有方法将PDF文档转换为eBook格式，如epub、azw或mobi？我正在寻找一个应用程序，这是快速的转换。我刚试过口径。10分钟后，甚至没有达到2%的转换。所以请不要有口径。CLI是首选。

浏览 0提问于2013-04-26得票数 9

回答已采纳

1回答

将扫描的pdf文件转换为文本可搜索的pdf文件

、、

我想将扫描的pdf文件转换为可文本搜索的pdf文件。我想给出一个输入作为扫描的PDF，然后我的预期输出是可搜索的PDF。有几个工具，给我们的文本作为输出从扫描的pdf文件，但我想文本可搜索的pdf文件作为输出，而不仅仅是文本。请帮助我给任何开放源代码的网络api或付费网络api服务的链接，或任何工具，可以转换为文本搜索的pdf文件。我在我的web应用程序中使用PHP语言。

浏览 25提问于2017-07-09得票数 1

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

1回答

在子文件夹中批处理OCR文件，并以新名称保存新文件

、、、、

我有以下代码，OCR的所有PDF文件都在一个特定的文件夹中(d：\exttmp2)，但它没有按我的意愿重命名这些文件，也没有将新文件放在正确的位置。OCR运行正常，但我希望将OCR‘’ed文件重命名为：<parent folder path>-<filename>_ocred.pdf。以这种方式命名它们将不会产生任何文件覆盖。当前，代码OCR是文件，但它将新文件保存到它们所在的文件夹之上的文件夹中。它还将文件名保存为"

浏览 2提问于2021-06-09得票数 0

回答已采纳

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

7回答

如何将pdf转换成文本可搜索的pdf？

、、

我有一些扫描文件的pdf，我想能够搜索他们。我怎么能这么做？治夹心三明治 (软件中心说它是一个很差的软件包，我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt，但在导出到pdf<

浏览 0提问于2014-05-29得票数 36

回答已采纳

1回答

从PDF中获取树的文件(最好使用Python)

、、、、

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。我试图使用python提取相关信息和树，但我遇到了麻烦。具体来说，当我尝试将树提取为图像(使用)时，没有出现任何树(大概是因为树不是正确的格式)。然而，当我尝试将其全部提取为文本(如)时，树会丢失它们的所有格式(以及它们的一些信息，我认为)。我怎样才能从这个PDF中获取我想要的文件呢？能用Python完成吗？还有更简单的方法吗？或者，我获得PDF的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#

浏览 0提问于2018-09-20得票数 0

回答已采纳

3回答

将pdf的内容读取为字符串

、、

如何将PDF的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。PDF来自一个url，我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.pdf, encoding: NSUTF8StringEncoding, error: nil)

浏览 14提问于2015-08-02得票数 0

回答已采纳

3回答

为什么pdf2image给我一个空白的图像文件？

、、、、

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。0].show()这就是输出应该是什么样子：我确实认为在PDF上进行的OCR在这里引起了一些问题。我也尝试了OCR，手动将页面转换成图像(剪短工具)，OCR引擎工作了。我

浏览 10提问于2021-06-06得票数 2

点击加载更多

在PDF中用python执行OCR有可能吗？

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

在修改和部署更新之后，查询非常缓慢。

运行反引号/exec()时的PHP路径问题

带有图像的PDF文件的OCR

AttributeError:模块“ocrmypdf”没有属性“ocr”

两种输入文件类型同时在GNU并行？

如何将jpg文件目录转换为以文件名为书签的pdf？

在终端中运行命令，并在输出中包含输入名

如何向只包含图像的PDF中添加文本？

如何将pdf格式转换为eBook格式

将扫描的pdf文件转换为文本可搜索的pdf文件

在r中的pdf上执行ocr时出错

在子文件夹中批处理OCR文件，并以新名称保存新文件

更改windows批处理中的文件扩展名

如何将pdf转换成文本可搜索的pdf？

从PDF中获取树的文件(最好使用Python)

将pdf的内容读取为字符串

为什么pdf2image给我一个空白的图像文件？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐