pdf文件ocr识别 - 腾讯云开发者社区

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

、、、

我想使用Google 将不可搜索的PDF转换成可搜索的PDF，其中的文本是覆盖在PDF上的。 PDF位于我的谷歌驱动器，我不想上传文件到另一个网站或下载的文件，以进行转换。我没有找到任何显示文本可以被覆盖的资源，类似于Acrobat如何进行OCR转换。那么，是否有可能使用气体进行覆盖呢？我只看到人们转换成文本或文档文件。

浏览 1提问于2019-07-09得票数 1

回答已采纳

2回答

Tesseract OCR混淆了0到8的斜线

、、

我曾在终端字体上训练过tesseract，但无论如何，我都无法让它识别出0。我正在使用jTessEditor创建培训tif和框。即使在验证时，它也会将所有的0读为8s。我遗漏了什么吗？

浏览 8提问于2018-10-31得票数 22

4回答

哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的文本pdf？

、、、、

我需要将扫描文档转换为mac上可搜索的文本PDF。它不需要免费，只需要比Acrobat更低的成本。

浏览 0提问于2015-03-02得票数 2

回答已采纳

1回答

带有Aspris库的java - OCR

、、、

这是我使用Aspris库编写的代码，但"recognize“方法有问题：Ocr ocr = new Ocr();String s = ocr.recognize(theImage, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PLAINTEXT); <

浏览 3提问于2015-08-14得票数 0

1回答

如何判断pdf文件中隐藏的文本层是否来自OCR？

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

4回答

一种基于OCR的PDF文本提取方法

、、

是否有人尝试过使用OCR库和Java从PDF中提取文本？你认为什么是最可靠的文本提取库？我见过的大多数方法(tesseract、GOCR)都是C库，需要编写一些JNI代码。

浏览 2提问于2009-04-22得票数 6

1回答

OCR多幅图像合并成一个PDF格式

、、

有没有人有经验，如何OCR几个图像，并创建一个输出PDF文件与识别的文本在C#中的Nicomsoft OCR？看起来它可以做到，但是我的C#代码由于某些原因没有生成任何PDF：NsOCR.Engine_InitializeAdvancedImgObj); { NsOCR.Img_LoadFile(Img

浏览 13提问于2015-04-28得票数 1

回答已采纳

1回答

从PDF中获取树的文件(最好使用Python)

、、、、

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。我试图使用python提取相关信息和树，但我遇到了麻烦。我怎样才能从这个PDF中获取我想要的文件呢？能用Python完成吗？还有更简单的方法吗？或者，我获得PDF的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP

浏览 0提问于2018-09-20得票数 0

回答已采纳

1回答

如何从PDF中提取音乐符号？

、、、

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf iconv.exe -f MAC

浏览 5提问于2019-07-22得票数 0

回答已采纳

4回答

尚未进行光学字符识别的批处理OCRing PDF

、

如果我有10,000个PDF，其中一些已经被OCRed，其中一些有一个页面已经被OCRed，但其余的页面没有，我如何通过所有的PDF，并只识别尚未完成的页面？

浏览 0提问于2009-10-13得票数 3

1回答

如何下载谷歌扫描的.pdf OCRed？

、

我有一个电子邮件与扫描的.pdf附加在我的Gmail帐户。当我点击“查看”，我看到谷歌有OCRed它。当我单击“下载”时，PDF是原始的，即不包含OCRed。如何通过谷歌下载内容为.pdf的OCRed文件？

浏览 0提问于2012-11-26得票数 2

1回答

Acrobat OCR识别的访问文本

、、

我有PDF文件已经被“识别”使用OCR文本识别->识别文本使用功能在Acrobat。有什么想法吗？

浏览 0提问于2010-06-25得票数 0

回答已采纳

1回答

上传pdf文件与gdata docs python v3.0与ocr

、、、、

我已经获得了以下用于将pdf文件上传到google docs的实现(取自gdata API示例)： """Upload a document,client.CreateResource(doc, media=media)现在，我想对上传的文件执行OCR文本识别</e

浏览 0提问于2011-12-31得票数 2

回答已采纳

11回答

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

、、、、

是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF？使用可搜索的PDF格式，我的意思是OCRed文本在原始文本上是不可见的，可以用鼠标选择并复制。我知道Linux上的gscan2pdf可以这样做，但是文本被放置在页面的左上角，而且太小了，与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR引擎。它应该将图像分解成小图像，用单行文本或小段落发送到<em

浏览 0提问于2014-04-20得票数 72

回答已采纳

9回答

什么是最好的，最简单的OCR解决方案？

、、

我想扫描大量的文件，我已经躺在附近，尽量少麻烦。我想通过简单的扫描将它们转换成图像，然后使用OCR将它们转换为文本。有一个好的OCR应用程序的图形用户界面，将给我一个好的结果按下一个按钮？

浏览 0提问于2010-12-05得票数 97

回答已采纳

1回答

关于一个好的自由软件/网站将pdf转换为EPUB的建议

、

我发现，当我将一个包含大量文本的pdf文件转换成EPUB格式(例如书籍)时，它们会在同一句话之间被分割成段落，我使用过-量程，Toepub.com和许多在大坏网站上可以找到的网站;-)。

浏览 0提问于2019-11-14得票数 0

1回答

是否有任何不基于OCR的通用布局分析库或工具？

、

我正在寻找布局分析库或工具(最好是开源的)，可以应用于文本PDF，以识别主要文本内容与侧栏，章节标题，章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具，它们使用光学字符识别和图像识别来识别布局。有没有库可以在没有OCR的情况下做同样的事情？可以从文本PDF中提取文本和图像，并将包含文本和图像位置的输入提供给该工具；对于此类文件使用OCR将是相当繁琐的。

浏览 2提问于2013-05-08得票数 2

回答已采纳

5回答

是否有OCR无法识别的字体？

为此，我将其页面转换为图片，并将其添加回PDF文件。主要的问题是，任何OCR程序都可以恢复整个书面文本，特别是页面将是清晰的(而不是扫描的书)，这将提高OCR的准确性。那么，有没有OCR无法识别的字体呢？否则，有没有一种技术可以让我的文档只被人类阅读，而不被OCR识别？(例如，添加特定的背景，等等) 提前谢谢你。

浏览 3提问于2012-11-13得票数 4

回答已采纳

7回答

如何将pdf转换成文本可搜索的pdf？

、、

我有一些扫描文件的pdf，我想能够搜索他们。我怎么能这么做？治夹心三明治 (软件中心说它是一个很差的软件包，我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt，但在导出到pdf<

浏览 0提问于2014-05-29得票数 36

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用doc取器在PDF文件中搜索文本？

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

Tesseract OCR混淆了0到8的斜线

哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的文本pdf？

带有Aspris库的java - OCR

如何判断pdf文件中隐藏的文本层是否来自OCR？

一种基于OCR的PDF文本提取方法

OCR多幅图像合并成一个PDF格式

从PDF中获取树的文件(最好使用Python)

如何从PDF中提取音乐符号？

尚未进行光学字符识别的批处理OCRing PDF

如何下载谷歌扫描的.pdf OCRed？

Acrobat OCR识别的访问文本

上传pdf文件与gdata docs python v3.0与ocr

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

什么是最好的，最简单的OCR解决方案？

关于一个好的自由软件/网站将pdf转换为EPUB的建议

是否有任何不基于OCR的通用布局分析库或工具？

是否有OCR无法识别的字体？

如何将pdf转换成文本可搜索的pdf？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐