ocr pdf转ai - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

在PDF上使用包含文本的文档AI仍然包括文本错误

、

使用文档AI处理器从PDF (英语、德语、意大利语)中提取文本非常好，但有时OCR不匹配。特别是在“单词”不是字典中的单词，而是包含字母和数字的部分数字有问题的情况下(主要是O0L1-5S)。有没有办法告诉文档AI使用PDF中包含的文本(作为文本)。对于我的知识文档，AI使用PDF页面的图像来对内容进行ocr。是否有任何标志可自定义文档AI以使用文本版本或任何其他想法？我需要使用文档AI，因为我希望以正确的方式提取

浏览 2提问于2021-07-05得票数 0

1回答

是否有方法将文件AI OCR响应解析为pdf格式？

我将扫描的PDF文件传递到Google文档AI OCR中。JSON响应(或者在使用Python时返回的文档对象)以结构化格式包含PDF的内容，正如所描述的。我也希望能够输出一个PDF文件(或者XML，如果更简单的话)。有这样的功能吗？任何关于可能的实现的提示都是非常感谢的。注意:在我执行任务之前，PDF已经是另一个工具的OCRed了，但是质量不如文件AI OCR那么好。谢谢

浏览 1提问于2021-04-07得票数 0

回答已采纳

2回答

从PDF中提取文本，并将提取的文本保存在Excel或其他地方

、

我想要一个简单的方法，从pdf中提取文本，并将文本保存到Excel中。谢谢!

浏览 16提问于2020-07-13得票数 0

2回答

我们如何在QnA制造者中显示一个pdf作为一个问题的答案？

我有PDF文档，它有很多截图和非常少的文本。当用户询问特定的问题时，我如何直接显示PDF本身。

浏览 2提问于2020-09-21得票数 0

回答已采纳

2回答

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

、、、、

我对一些pdf文件有问题。我需要将它们转换为jpg图像，使它们可用于OCR，但当我转换其中的一些，魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为pdf文件的文件中，其中空间颜色变成了CMYK。Tesseract OCR仅接受空间颜色RGB。我已经写了一个可以转换的python脚本，但我想解决这个问题。你能帮我一下吗？原页pdf ? 已将pdf转换为jpg

浏览 51提问于2019-04-22得票数 1

回答已采纳

1回答

在PDF文件中查找文本消息的工具

、、、

目标：文本消息是PDF文件中的图片。你需要什么工具来使用我订购的工具？不管它付不付服务费。您只需要发送一个PDF文件和短信，然后检索答案，如果有匹配和结果是什么。

浏览 0提问于2018-08-18得票数 1

1回答

在PDF中用python执行OCR有可能吗？

、、、

在PDF中用python执行OCR有可能吗？我正在尝试构建一个程序，从每一个PDF表格中提取一些信息，比如Autodesk BIM360所做的事情。

浏览 6提问于2022-05-26得票数 -2

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

3回答

PDF转Word？

浏览 472提问于2018-06-03

1回答

api.ai.qq.com这个域名解析不了, 请问是下架了还是什么原因？

、、、

浏览 263提问于2022-07-25

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

图像保留结构中的翻译语言

、、

我们希望将pdf文档中的图像从不同的语言转换为英语。它们是扫描过的图像，很多时候都有表格或一些结构。我们希望翻译成英语，但尽可能保留文档的结构。因此，仅仅基于纯文本的翻译是不够的。

浏览 6提问于2021-07-21得票数 0

1回答

在修改和部署更新之后，查询非常缓慢。

查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_ocr_pending,dv.time,dv.label,dv.is_pdf_broken,dv.is_pdf_scan,dv.ocr_recall_id,dv.ocr_vatno,cv.name ocr_vatno_name,dv.ocr_vatno_country,dv.ocr_is_vatno_verified,dv.ocr

浏览 0提问于2019-01-06得票数 0

回答已采纳

1回答

Google平台-使用自定义数据格式的顶点AI培训

、、

我需要训练一个自定义的OCR在顶点AI。我的数据有裁剪图像的文件夹，每个图像都是一行，csv文件有2列:图像名和图像中的文本。但是当我试图将它导入到顶点AI的中时，我发现图像数据集只支持分类、分割和目标检测。我可以使用顶点AI进行训练，如何做到这一点？

浏览 9提问于2022-04-20得票数 1

回答已采纳

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

3回答