pdf图片ocr识别文本 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

如何用谷歌翻译图片上的文字？

google-translate

如果我遇到一个含有未知文本的图片文件，我可以为它拍另一张照片，然后用我的手机使用进行翻译，但我如何在我的电脑上翻译它呢？我试着输入谷歌翻译的图片链接，但显示无法打开文件。

浏览 18提问于2014-08-06得票数 0

回答已采纳

1回答

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件

浏览 0提问于2016-08-16得票数 0

回答已采纳

5回答

是否有OCR无法识别的字体？

ocr

为此，我将其页面转换为图片，并将其添加回PDF文件。主要的问题是，任何OCR程序都可以恢复整个书面文本，特别是页面将是清晰的(而不是扫描的书)，这将提高OCR的准确性。那么，有没有OCR无法识别的字体呢？否则，有没有一种技术可以让我的文档只被人类阅读，而不被OCR识别？(例如，添加特定的背景，等等) 提前谢谢你。

浏览 3提问于2012-11-13得票数 4

回答已采纳

1回答

从PDF中获取树的文件(最好使用Python)

python、pdf、tree、nlp、extraction

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。我试图使用python提取相关信息和树，但我遇到了麻烦。然而，当我尝试将其全部提取为文本(如)时，树会丢失它们的所有格式(以及它们的一些信息，我认为)。我怎样才能从这个PDF中获取我想要的文件呢？能用Python完成吗？还有更简单的方法吗？或者，我获得PDF的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#

浏览 0提问于2018-09-20得票数 0

回答已采纳

2回答

使用.NET抓取屏幕

.net、ocr

我有大约100K的pdf格式/tif，jpg格式的扫描图像，需要从其中读取数据，然后上传到硬盘驱动器。我计划来一个小的应用程序，将有助于自动化的数据输入工作。

浏览 0提问于2011-07-09得票数 0

11回答

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

windows、gratis、linux、pdf、ocr

是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF？使用可搜索的PDF格式，我的意思是OCRed文本在原始文本上是不可见的，可以用鼠标选择并复制。我知道Linux上的gscan2pdf可以这样做，但是文本被放置在页面的左上角，而且太小了，与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR

浏览 0提问于2014-04-20得票数 72

回答已采纳

5回答

如何在扫描的.jpeg中编辑文本？

software-recommendation、pdf、scanning、ocr

我需要上传一个扫描图像作为PDF文件。我以前从来没有这样做过，所以我真的被困住了。我该怎么做？

浏览 0提问于2012-12-05得票数 15

回答已采纳

2回答

Tesseract OCR混淆了0到8的斜线

python、ocr、tesseract

我曾在终端字体上训练过tesseract，但无论如何，我都无法让它识别出0。我正在使用jTessEditor创建培训tif和框。即使在验证时，它也会将所有的0读为8s。我遗漏了什么吗？

浏览 8提问于2018-10-31得票数 22

1回答

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

python、python-imaging-library、data-extraction、pypdf2

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.ge

浏览 2提问于2020-05-27得票数 1

回答已采纳

4回答

哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的文本pdf？

osx、pdf、ocr、text-search、scanning

我需要将扫描文档转换为mac上可搜索的文本PDF。它不需要免费，只需要比Acrobat更低的成本。

浏览 0提问于2015-03-02得票数 2

回答已采纳

1回答

如何判断pdf文件中隐藏的文本层是否来自OCR？

pdf

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

1回答

如何快速从图像中扫描可搜索的pdf？

ios、swift、pdf、ocr、swift5

我想扫描文件与tesseract框架中的迅速和生成pdf文件，可以搜索。实际上，我使用此代码将图像转换为文本，但我希望生成主格式的图片，但格式将随着转换为文本而改变，并生成pdf文件。

浏览 2提问于2020-10-13得票数 0

回答已采纳

4回答

一种基于OCR的PDF文本提取方法

java、pdf、text-parsing

是否有人尝试过使用OCR库和Java从PDF中提取文本？你认为什么是最可靠的文本提取库？我见过的大多数方法(tesseract、GOCR)都是C库，需要编写一些JNI代码。我熟悉pdfbox，它现在是Apache 0.8.x版的孵化器项目，但是它的文本提取并不总是准确的。我正在寻找一种更可靠的替代方法。

浏览 2提问于2009-04-22得票数 6

3回答

将pdf的内容读取为字符串

ios、swift、pdf

如何将PDF的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。PDF来自一个url，我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.pdf, encoding: NSUTF8StringEncoding, error: nil)

浏览 14提问于2015-08-02得票数 0

回答已采纳

1回答

如何在蟒蛇的景观方向上阅读pdf？

python-3.x、pdf、landscape-portrait、pypdf2

我有一个pdf文件，是在肖像方向，但在一些页面，文本是在景观方向。当使用PyPDF2读取上面的页面时，我从extractText()函数获得以下文本：Out24："U ~ 00 w.T.-O.O.O.mó00 woNN p 00 a+ -fl n~n a O ;~ 0 ~^ o a. ~… 下面是我试图提取文本的页面示例：

浏览 1提问于2018-04-03得票数 0

回答已采纳

1回答

是否有任何不基于OCR的通用布局分析库或工具？

pdf、image-processing

我正在寻找布局分析库或工具(最好是开源的)，可以应用于文本PDF，以识别主要文本内容与侧栏，章节标题，章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具，它们使用光学字符识别和图像识别来识别布局。有没有库可以在没有OCR的情况下做同样的事情？可以从文本PDF中提取文本和图像，并将包含文本和图像位置的输入提供给该工具；对于此类文件

浏览 2提问于2013-05-08得票数 2

回答已采纳

1回答

我想从OCR数据中提取表信息。

python、image、ocr、pytesser

我想从OCR数据中提取表格信息，我有原始文本和它的文本。我试过pytesseract，但找不到实际的实现。我试过这个：这种方法对我一点用也没有。我希望从OCR数据中获得此表的表格结构，以供进一步处理。

浏览 3提问于2019-01-20得票数 0

3回答

如何在没有microsoft.office.interop的情况下将PDF转换为文档？

c#、pdf-generation、ms-office、openoffice.org、doc

我需要转换成.doc文件使用C#的PDF文件。虽然这台计算机没有安装Office，但它没有文件系统。有没有什么好办法让我这么做呢？我做了一些研究，大多数人都在使用互操作服务。

浏览 2提问于2011-04-23得票数 0

回答已采纳

1回答

快速检查PDF文件上的OCR文本层

pdf、ocr

有没有什么程序可以让我在PDF渲染的基础上叠加PDF的文本(OCR)层？如果这可以用程序来完成，那会更方便，如果不能，一些cli命令或脚本也可以工作。

浏览 2提问于2017-11-18得票数 1

1回答

在Tesseract OCR中是否有从PDF中查找字符串和删除页面的属性？

node.js、ocr、tesseract、pdftk、pdf.js

我试图在Tesseract OCR中将Image转换成文本PDF。在中间，我需要检查封面页，并从结果中删除。在Tessaract OCR中是否可以根据封面的特定属性(封面文本匹配)来识别封面。或者，我是否需要获取tessetact OCR结果的全部输出，并提供我的逻辑来扫描PDF和删除封面页。我非常困惑，任何帮助都将不胜感激。

浏览 1提问于2018-09-20得票数 0

回答已采纳

点击加载更多

如何用谷歌翻译图片上的文字？

如何使用doc取器在PDF文件中搜索文本？

是否有OCR无法识别的字体？

从PDF中获取树的文件(最好使用Python)

使用.NET抓取屏幕

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

如何在扫描的.jpeg中编辑文本？

Tesseract OCR混淆了0到8的斜线

使用Python PyPDF2从扫描的pdf* (图像)中提取文本*

哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的文本pdf？

如何判断pdf文件中隐藏的文本层是否来自OCR？

如何快速从图像中扫描可搜索的pdf？

一种基于OCR的PDF文本提取方法

将pdf的内容读取为字符串

如何在蟒蛇的景观方向上阅读pdf？

是否有任何不基于OCR的通用布局分析库或工具？

我想从OCR数据中提取表信息。

如何在没有microsoft.office.interop的情况下将PDF转换为文档？

快速检查PDF文件上的OCR文本层

在Tesseract OCR中是否有从PDF中查找字符串和删除页面的属性？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐