pdf无法ocr识别文字 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

帮助Canon CanoScan LiDE扫描PDF文档

、、、

当我使用Windows 7中的扫描仪，并将扫描过的书籍页保存为PDF格式时，我可以打开PDF扫描页面并直接从其中复制文本以粘贴到Google或任何LibreOffice文档。我通过简单的扫描将页面扫描为文本，并将其保存为PDF格式。但是在Ubuntu中，当我打开扫描的PDF页面时，它会打开OK，但是我不能复制文本。

浏览 0提问于2014-03-16得票数 2

回答已采纳

2回答

可将OCR文本插入回源PDF的OCR库

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

2回答

Tesseract OCR混淆了0到8的斜线

、、

我曾在终端字体上训练过tesseract，但无论如何，我都无法让它识别出0。我正在使用jTessEditor创建培训tif和框。即使在验证时，它也会将所有的0读为8s。我遗漏了什么吗？

浏览 8提问于2018-10-31得票数 22

1回答

关于拆分PDF和OCR识别

、、、

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。提前感谢您……

浏览 18提问于2021-04-20得票数 0

回答已采纳

5回答

是否有OCR无法识别的字体？

无法复制文档内容。为此，我将其页面转换为图片，并将其添加回PDF文件。主要的问题是，任何OCR程序都可以恢复整个书面文本，特别是页面将是清晰的(而不是扫描的书)，这将提高OCR的准确性。那么，有没有OCR无法识别的字体呢？否则，有没有一种技术可以让我的文档只被人类阅读，而不被OCR识别？(例如，添加特定的背景，等等) 提前谢谢你。

浏览 3提问于2012-11-13得票数 4

回答已采纳

1回答

如何在蟒蛇的景观方向上阅读pdf？

、、、

我有一个pdf文件，是在肖像方向，但在一些页面，文本是在景观方向。

浏览 1提问于2018-04-03得票数 0

回答已采纳

1回答

如何在PDFTextExtractor上使用iTextSharp

我想用iTextSharp从pdf文件中检索文本。但是，我无法像在itextsharp(itext)的JAVA中那样使用PDFTextExtractor。私有字符串readPDFOffline(string fileUri)；检索此Pdf的文本内容；*返回contentOfflineFile

浏览 3提问于2010-12-10得票数 3

回答已采纳

1回答

用c#编程编辑PDF (非固定PDF)

、、、、

是否可以编辑在C#中不可填充的PDF格式 ..。这是来自ASPOSE文本替换的输出。

浏览 6提问于2012-06-28得票数 1

1回答

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

如何从PDF中提取音乐符号？

、、、

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf iconv.exe -f MAC

浏览 5提问于2019-07-22得票数 0

回答已采纳

1回答

OCR表格识别是否支持Excel表格合并？

浏览 174提问于2022-06-15

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

OCR文字识别？

浏览 222提问于2022-06-15

1回答

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

、、、

我想使用Google 将不可搜索的PDF转换成可搜索的PDF，其中的文本是覆盖在PDF上的。 PDF位于我的谷歌驱动器，我不想上传文件到另一个网站或下载的文件，以进行转换。我没有找到任何显示文本可以被覆盖的资源，类似于Acrobat如何进行OCR转换。那么，是否有可能使用气体进行覆盖呢？我只看到人们转换成文本或文档文件。

浏览 1提问于2019-07-09得票数 1

回答已采纳

3回答

OCR图形纸

我想把一个扫描过的图形纸笔记本(有手写)的pdf格式转换成一个文本文件。谢谢

浏览 6提问于2009-06-20得票数 1

3回答

运行ImageMagick将低质量pdf转换为图像(用于OCR)的最佳参数是什么？

、、、、

我有几个低质量的pdf。我想使用OCR --更准确地说，是用从他们那里获取文本。为此，我使用了first --一个将pdf转换为图像的命令行工具--将这些pdf转换为jpg或png。然而，ImageMagick生成的图像质量非常低，Ocropus几乎无法识别任何内容。我想了解处理低质量pdf的最佳参数是什么，以便为OCR提供尽可能好的质量图像。

浏览 0提问于2010-09-01得票数 9

回答已采纳

8回答

OCR文字识别技术有哪些应用？

OCR 是实时高效的定位与识别图片中的所有文字信息，返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别，以及中英文、字母、数字的识别。简单来说就是将图片上的文字内容，智能识别成为可编辑的文本，这么强大的功能在我们生活当中有哪些应用呢？

浏览 3696提问于2018-08-24

1回答

人脸核身的费用中包含OCR身份证识别吗？

、

浏览 162提问于2022-06-15

3回答

将pdf的内容读取为字符串

、、

如何将PDF的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。PDF来自一个url，我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.pdf, encoding: NSUTF8StringEncoding, error: nil) 但是，我认为这是无

浏览 14提问于2015-08-02得票数 0

回答已采纳

1回答