ocr文本扫描 - 腾讯云开发者社区

、

我正在使用Firebase Google云文本识别OCR。我在扫描文本和货币。在这种情况下，我可以很容易地扫描文本，但是，一些符号，如日元，元是没有检测到的。我正在使用应用程序中的firebase google cloud ocr API服务扫描文本。

浏览 2提问于2019-06-07得票数 0

1回答

Google Drive API扫描文档

、

我需要包含将文档扫描到我的应用程序中的功能。可以使用新的Google drive API来扫描文档吗？我尝试使用OpenCV来处理图像，但是没有得到好的结果。

浏览 1提问于2014-07-17得票数 2

1回答

我想从OCR数据中提取表信息。

、、、

我想从OCR数据中提取表格信息，我有原始文本和它的文本。我试过pytesseract，但找不到实际的实现。我试过这个：这种方法对我一点用也没有。我希望从OCR数据中获得此表的表格结构，以供进一步处理。

浏览 3提问于2019-01-20得票数 0

1回答

Itext从pdf中获得特殊信件

、、

我尝试了许多ocr解决方案，但它们都给出了糟糕的结果。我有没有办法提取所有这些pdf数据，就像他们在pdf中使用itext的方式一样。

浏览 4提问于2015-06-08得票数 0

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

3回答

检测倒过来的pdf页面

、、、

我们使用php、pypdfocr和pdftotext来进行OCR，并从已扫描或传真给我们的文档中提取文本。问题是，当文档被倒转扫描或传真时，或者某些页面打算被读取时(因此文本在页面上旋转了90度)。我尝试过的事情：对于有90度文本的页面，产生的OCR文本层并不坏，但是，倒过来的页面，OCR会把每个单词都翻转到适当的位置，这样如果文

浏览 4提问于2015-08-05得票数 3

回答已采纳

1回答

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行OCR？

浏览 1提问于2018-05-26得票数 0

回答已采纳

2回答

如何以编程方式验证PDF文件是否为第一代文件？

、

我从概念上理解什么是第一代PDF文件(将文档直接打印到PDF，而不是扫描副本或打印和扫描副本)。但是，我做了一些研究，没有发现任何可以通过编程验证的第一代PDF的属性。我找到了一种产品，可以让人检查PDF是否包含文本、图像，或者两者都包含：，但出于预算和其他原因，我正在寻找一种自己编程的方法。此外，我不确定确定文件包含文本是否足以验证它是第一代文件。

浏览 0提问于2011-07-27得票数 1

回答已采纳

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？即使它要经过两次，一次是笔直的文本，另一次是图像。

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

识别pdf类型

、

Apache Tika中有没有检查pdf类型的选项:原生pdf (纯)或扫描pdf？如果没有，也许我可以在Tika使用的tesseract中检查它。

浏览 28提问于2020-09-23得票数 0

2回答

PDF和文本层

、、

根据这个站点的，当添加一个文本层时，PDF是可搜索的。如果扫描仪在图像上执行OCR，它是否将文本存储在“文本层”中？或者是"XMP“字段？这只

浏览 2提问于2012-07-10得票数 15

回答已采纳

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货机吗？

浏览 5提问于2011-08-18得票数 1

回答已采纳

2回答

用OCR将文本文档扫描到PDF

、、

我需要扫描文本文件到PDF。操作系统Windows或Linux。预算-无限。

浏览 0提问于2016-10-03得票数 2

2回答

使用VB.net将PDF转换为文本文件

、、

我有一个扫描的PDF文件，我需要一个VB.net源代码，将扫描的PDF转换为文本格式。

浏览 0提问于2009-09-29得票数 0

2回答

如何区分扫描的PDF和常规的文本PDF

、、

我正在处理多个PDF文件的OCR任务。其中一些是扫描的(不可搜索的)，另一些只是原生的(可搜索的)PDF。image1 = image_read_pdf (file.list1[1], density=150)用于文本的pdf由于OCR

浏览 7提问于2021-04-10得票数 1

11回答

免费的OCR软件，使PDF可搜索(与可搜索的文本在正确的地方)

、、、、

是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF？使用可搜索的PDF格式，我的意思是OCRed文本在原始文本上是不可见的，可以用鼠标选择并复制。我知道Linux上的gscan2pdf可以这样做，但是文本被放置在页面的左上角，而且太小了，与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR引擎。它应该将图像分解成小图像，用单行<em

浏览 0提问于2014-04-20得票数 72

回答已采纳

3回答

谷歌图书是如何工作的？有没有开源的替代方案？

、、

这个过程基本上是“高质量扫描”吗？在这些高质量的图像上，是否有任何开源的解决方案来“大规模生成”“水印”？假设你有一张原始图片。当用户在线查看它时，我重新创建了图像并在图像" on - the -fly“上添加了水印和其他一些文本。python中是否存在这样的库？谢谢

浏览 4提问于2009-10-06得票数 0

回答已采纳

1回答

用于从PDF中提取数据的自然语言处理

、

我有许多不同格式的扫描pdf与许多不同的领域。把它想象成一张已经扫描过的发票。我需要从扫描的pdf中提取信息，并输出字段和每个字段中的文本。我有一个OCR工具，它可以很好地提取原始格式的所有文本。不知何故，我使用NLP必须能够从原始文本中提取字段及其值。由于发票的格式有很多种，因此在这种情况下不能使用OCR。NLP如何帮助我解决这个问题？

浏览 6提问于2017-10-05得票数 0

9回答