ocr的pdf_pdf的ocr_ocr pdf - 腾讯云开发者社区

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：删除PDF原始文件中的/PDF-扫描&

浏览 5提问于2011-08-18得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

在这条路径上，他们是空格，这是导致问题的原因。即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;endforeach; 如果您可以看到子文件夹名称之间的空格，则会导致问题。通过命令行，它将是(这是有效的</

浏览 1提问于2010-04-15得票数 0

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=kon

浏览 0提问于2022-11-30得票数 0

回答已采纳

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。D:/PDF_OCR_File/test.pdf.tif D:/PDF_OCR_File/test.pdf -l eng"' had status 1 6: In shell(shQuote(paste0("D:/Software_for_<em

浏览 3提问于2017-09-20得票数 0

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？即使它要经过两次，一次是笔直的文本，另一次是图像。

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage =

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

我有一个要更新的表。在我的表中，如果一列有重复项，则将其与其匹配项分组在一起。其中一份文件是原件。我需要更新我的表，以使组Id等于原始文档。因此，如果所有文档属于同一组，则它们必须具有相同的统一标题。例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。94 06000847.pdf OCR0000000004 OCR0000000006

浏览 0提问于2014-03-22得票数 0

1回答

两种输入文件类型同时在GNU并行？

、、、

-l deu_frak && rm {.}.pgm' 这是我按照Ole Tange的建议尝试过的</em

浏览 2提问于2017-07-25得票数 1

3回答

将pdf的内容读取为字符串

、、

如何将PDF的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。PDF来自一个url，我将它加载到一个web视图中并使用NSURL扩展来缓存它。我怎样才能获得这个网页，并阅读网址的内容。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.pdf</e

浏览 14提问于2015-08-02得票数 0

回答已采纳

1回答

检测景观格式的图像，并将其分割成两幅肖像。

、、、、

我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。我需要对它们执行OCR处理，但我需要使用bash脚本重新格式化它们。我可以用pdfimages从PDF中提取图像，将它们与img2pdf放在一起，用ocrmypdf执行OCR处理。但是，我很难用的实用程序来检测它们的方向，如果必要的话，在纵向模式下将它们分割成两幅图像。你应该知道，并不是所有的扫描都是相同的大小和肖像和景观图像混合在同一个<

浏览 2提问于2020-04-20得票数 1

1回答

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

、

我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy", "no_ocr

浏览 48提问于2021-06-02得票数 0

1回答

将扫描的pdf转换为R中可搜索的pdf

、

我有一个pdf，大约50页扫描表。我需要最终把它刮到R中，这样我就可以清理数据并将其导出为.csv。我有使用tabulizer抓取可读的pdfs的经验，但我以前从未真正使用过扫描pdfs，tabulizer无法读取它们。环顾在线，我所能得到的最远就是将扫描的pdf作为一个字符对象读取到R中，但这会使格式发生很大的变化，因此表中的列都错对齐了，并出现了无序。即使它的格式仍然很好，我也不知道如何将字符对象转换成最终的df

浏览 5提问于2022-11-16得票数 0

2回答

在WinForm中寻找OCR库

、、

是否有任何免费/付费的OCR库能够捕获PDF格式的发票数据？需要有一个低的错误率。我们需要对这些数据进行进一步的处理。

浏览 0提问于2019-06-10得票数 1

1回答

如何从PDF中提取音乐符号？

、、、

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf

浏览 5提问于2019-07-22得票数 0

回答已采纳

2回答

用R做OCR

、、、、

我一直试图在R内做OCR (读取PDF数据作为扫描图像)。一直在读到这个@ lapply(myfiles, function(i){ # convert pdf to ppm (an image format), just pages 1

浏览 7提问于2015-08-13得票数 14

1回答

如何在perl中安装PDF::OCR2模块？

、、、

我正在尝试使用perl从扫描的PDF中获取文本，所以我在perl中使用了PDF::OCR2模块，但我无法安装此模块，安装Image::OCR::Tesseract模块失败，我使用的是CentOS7，这是我在安装过程中的错误NOT OK reports LEOCHARRE/

浏览 17提问于2016-08-19得票数 0

2回答

如何向只包含图像的PDF中添加文本？

、

我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描，同时使用Foxit PhantomPDF向PDF中的图像添加文本。这两种解决方案都带来了不错的OCR，但是也有一些缺陷，比如在非文本上出现错误，或者99%的文本在页面上被漏掉，因为页面的角落中有3-4个单词与页面上的所有其他文本一样，它们都是90度旋转的。至少PhantomPDF允许您检查软件认为可能是假阳性的内容，但您没有太多的控制能力

浏览 0提问于2018-05-25得票数 0

2回答

如何将pdf格式转换为eBook格式

、

是否有方法将PDF文档转换为eBook格式，如epub、azw或mobi？我正在寻找一个应用程序，这是快速的转换。我刚试过口径。10分钟后，甚至没有达到2%的转换。所以请不要有口径。CLI是首选。

浏览 0提问于2013-04-26得票数 9

回答已采纳

1回答

执行OCR时出错- Microsoft Azure Computer Vision API

、

我正在使用Microsoft Azure Computer Vision进行OCR PDF提取。当我尝试执行OCR时，它给出的错误为 Read PDF With OCR: Error performing OCR: MicrosoftAzureComputerVisionErrorRunEngine

浏览 31提问于2020-07-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

运行反引号/exec()时的PHP路径问题

在终端中运行命令，并在输出中包含输入名

更改windows批处理中的文件扩展名

在r中的pdf上执行ocr时出错

带有图像的PDF文件的OCR

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

更新多个列，使其与另一列相等

两种输入文件类型同时在GNU并行？

将pdf的内容读取为字符串

检测景观格式的图像，并将其分割成两幅肖像。

如何使用Apache Tika Server从PDF中提取内联图像并将其保存为文件？

将扫描的pdf转换为R中可搜索的pdf

在WinForm中寻找OCR库

如何从PDF中提取音乐符号？

用R做OCR

如何在perl中安装PDF::OCR2模块？

如何向只包含图像的PDF中添加文本？

如何将pdf格式转换为eBook格式

执行OCR时出错- Microsoft Azure Computer Vision API

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐