pdf转ocr方法 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

、、、、

我对一些pdf文件有问题。我需要将它们转换为jpg图像，使它们可用于OCR，但当我转换其中的一些，魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为pdf文件的文件中，其中空间颜色变成了CMYK。Tesseract OCR仅接受空间颜色RGB。我已经写了一个可以转换的python脚本，但我想解决这个问题。你能帮我一下吗？原页pdf ? 已将pdf转换为jpg

浏览 51提问于2019-04-22得票数 1

回答已采纳

1回答

在PDF中用python执行OCR有可能吗？

、、、

在PDF中用python执行OCR有可能吗？我正在尝试构建一个程序，从每一个PDF表格中提取一些信息，比如Autodesk BIM360所做的事情。

浏览 6提问于2022-05-26得票数 -2

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

使用python从PDF中提取扫描页面

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行OCR</

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

在修改和部署更新之后，查询非常缓慢。

查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_ocr_pending,dv.time,dv.label,dv.is_pdf_broken,dv.is_pdf_scan,dv.ocr_recall_id,dv.ocr_vatno,cv.name ocr_vatno_name,dv.ocr_vatno_country,dv.ocr_is_vatno_verified,dv.ocr

浏览 0提问于2019-01-06得票数 0

回答已采纳

3回答

将pdf的内容读取为字符串

、、

如何将PDF的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。PDF来自一个url，我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.pdf, encoding: NSUTF8StringEncoding, error: nil) 但是，我认为这是无

浏览 14提问于2015-08-02得票数 0

回答已采纳

1回答

如何在perl中安装PDF::OCR2模块？

、、、

我正在尝试使用perl从扫描的PDF中获取文本，所以我在perl中使用了PDF::OCR2模块，但我无法安装此模块，安装Image::OCR::Tesseract模块失败，我使用的是CentOS7，这是我在安装过程中的错误NOT OK reports LEOCHARRE/PDF-OCR2t

浏览 17提问于2016-08-19得票数 0

2回答

如何将pdf格式转换为eBook格式

、

是否有方法将PDF文档转换为eBook格式，如epub、azw或mobi？我正在寻找一个应用程序，这是快速的转换。我刚试过口径。10分钟后，甚至没有达到2%的转换。所以请不要有口径。CLI是首选。

浏览 0提问于2013-04-26得票数 9

回答已采纳

1回答

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

、、、

我想使用Google 将不可搜索的PDF转换成可搜索的PDF，其中的文本是覆盖在PDF上的。 PDF位于我的谷歌驱动器，我不想上传文件到另一个网站或下载的文件，以进行转换。我没有找到任何显示文本可以被覆盖的资源，类似于Acrobat如何进行OCR转换。那么，是否有可能使用气体进行覆盖呢？我只看到人们转换成文本或文档文件。

浏览 1提问于2019-07-09得票数 1

回答已采纳

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

2回答

使用Perl从PDF中提取图像/文本

、、

我正在尝试使用Perl从PDF文件中提取文本/图像/表格。有没有一种方法可以使用Perl模块从PDF中提取文本/图像/表格？

浏览 0提问于2016-04-27得票数 2

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

2回答

如何向只包含图像的PDF中添加文本？

、

我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描，同时使用Foxit PhantomPDF向PDF中的图像添加文本。这两种解决方案都带来了不错的OCR，但是也有一些缺陷，比如在非文本上出现错误，或者99%的文本在页面上被漏掉，因为页面的角落中有3-4个单词与页面上的所有其他文本一样，它们都是90度旋转的。最先进的OCR解决方案是将图像转换为可搜索的PDF，还是将(隐藏的)文本添加到仅包含图像的现有PDF中(添加搜索功能)？

浏览 0提问于2018-05-25得票数 0

1回答

检查PDF可搜索是否已被OCR或PDF可搜索的事实

、、、、

是否有任何Python方法来识别PDF是否是OCR的(文本的质量很差)和可搜索的PDF (文本的质量是完美的)？4) doc_info = pdf_file.getDocumentInfo()我发现： result = get_doc_info(PDF_SEARCHABLE_HAS_BEEN_OCR

浏览 6提问于2021-09-16得票数 0

回答已采纳

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

用于文件检索的“登录”

、

假设我有30个等级考试，都是OCR评分和PDF格式的注解。我怎么能让学生们取回它呢？我的第一个想法是将所有文件转储到我的网站/~name/handback/，然后创建一个java脚本输入框，要求输入学生编号x，然后打开相应的x.pdf。这显然不是一个好的方法，因为一个学生谁知道别人的ID可以下载他们的整个考试。我怎么才能解决这个问题？如果我让每个学生在学期开始

浏览 2提问于2016-06-23得票数 0

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

点击加载更多

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

在PDF中用python执行OCR有可能吗？

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

运行反引号/exec()时的PHP路径问题

使用python从PDF中提取扫描页面

在修改和部署更新之后，查询非常缓慢。

将pdf的内容读取为字符串

如何在perl中安装PDF::OCR2模块？

如何将pdf格式转换为eBook格式

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

在终端中运行命令，并在输出中包含输入名

使用Perl从PDF中提取图像/文本

在r中的pdf上执行ocr时出错

更改windows批处理中的文件扩展名

如何向只包含图像的PDF中添加文本？

检查PDF可搜索是否已被OCR或PDF可搜索的事实

带有图像的PDF文件的OCR

如何使用doc取器在PDF文件中搜索文本？

用于文件检索的“登录”

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐