ocr怎么提取文件 - 腾讯云开发者社区

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

HowTo从PDF中提取嵌入的光学字符识别数据？

、、、

我有嵌入OCR数据的PDF文件。(所以我已经对它们进行了orcd )，所以它们是可搜索的。现在我想提取这个OCR数据，因为我想放入我的tomcat6搜索服务器。为此，我需要普通的OCR数据。所以我的问题是，有没有可能从pdf文件中提取嵌入的OCR数据？如果能得到带有坐标的文件就好了。但它也足以获得纯文本文件。

浏览 2提问于2011-03-02得票数 2

1回答

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

、、、、

我使用这两个依赖项：- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作：- pdf文件和文本。pdf文件与图像。文本文件和其他扩展名。对于下面的用例- pdf文件和图像中的文本，pdf分析器运行时异常的解析失败。有人能在这里建议如何解决失败的案件吗？

浏览 19提问于2022-11-11得票数 0

2回答

文件tesseract.exe不存在

、

pytesseract库当我尝试使用image_to_text方法时，它给了我一个应该变成我搜索并没有在我的Python文件夹

浏览 6提问于2017-06-29得票数 4

回答已采纳

1回答

从pdf图像文件中提取文本

、、、

我有一个图像文件，我想从给定的图像中提取文本，我尝试了各种OCR引擎，但我无法找到左侧实体和右侧实体之间的关系，因为OCR引擎只是提取没有实体之间关系的文本。例如事务(公司借款)，account#1: Cash account#2: Loan payable 我尝试过使用各种OCR引擎和PyPDF2和pdftotext进行文本提取。

浏览 1提问于2019-08-27得票数 2

1回答

在AWS中存储和执行大文本搜索

、、、

我需要从S3中的PDF和图像文件中获取OCR (光学字符识别)数据，以便用户可以对这些OCR数据执行搜索。我正在使用AWS提取的文本提取来获取OCR数据。我计划将OCR数据存储在Dynamo中，并在其中执行搜索查询。请提前帮忙谢谢！

浏览 1提问于2020-04-06得票数 1

回答已采纳

2回答

从PDF中提取文本，并将提取的文本保存在Excel或其他地方

、

我想要一个简单的方法，从pdf中提取文本，并将文本保存到Excel中。谢谢!

浏览 16提问于2020-07-13得票数 0

1回答

从pdf文件中提取文本和包含文本的图像

、、

我正在从pdf文件中提取文本，该文件具有行文本和一些具有文本的图像报告。我应该使用哪种OCR技术来提取行文本和图像中的文本。我已经尝试了一些OCR技术，要么是做OCR，要么是从pdf中读取文本。

浏览 14提问于2019-07-19得票数 0

3回答

为什么pdf2image给我一个空白的图像文件？

、、、、

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。import cv2 pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-OCR我不知道怎么</

浏览 10提问于2021-06-06得票数 2

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

如何使用OCR从jpg文件中提取数值

、、、

我创建了以下代码并执行：Ocr ocr = new Ocr();String s =ocr.recognize(theImage, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PLAINTEXT); Out

浏览 2提问于2015-11-25得票数 0

回答已采纳

1回答

PDFBox:区分透明文本和非透明文本

、、、

我有一个任务，在那里，我必须提取文本，是背后的图像，并已从图像本身OCR编辑。这一案文是透明的。问题是，有一个图像，它的背后有文字，不是OCR编辑的，它只是正常的文本，它是不透明的。这是一个具有代表性的pdf文件：图像OCR文本应该在第2页、第3页、第12页上提取，而文本也在第4页上提取。在第4页，图像后面没有OCR文本，但是图像下面有规则文本。我需要过滤掉它，因为我只需要OCR文本。

浏览 6提问于2021-07-13得票数 0

回答已采纳

1回答

使用GNU并行组合两个命令用于OCR项目

、、、、

在编写文本文件之后，我想编写一个脚本，它运行一个命令到OCR pdfs，它删除结果图像。time find .如果我运行上面的命令，第一个命令将提取图像并占用我的磁盘空间，然后第二个命令将执行OCR操作，然后删除图像作为最后一步。所以, 删除刚

浏览 1提问于2017-07-11得票数 1

2回答

是否可以通过编程方式从视频中提取文本？

、

我知道我们可以用ocr从图像中提取文本。但是我需要提取视频中的文本，就像视频演讲中的文本一样。换句话说，是否有可能将视频转录成文本。这有可能吗？如果是的话，请建议我如何使用java或任何其他语言。

浏览 5提问于2017-07-15得票数 0

1回答

如何下载谷歌扫描的.pdf OCRed？

、

如何通过谷歌下载内容为.pdf的OCRed文件？

浏览 0提问于2012-11-26得票数 2

1回答

OCR分析获取复选框或单选按钮值

、、、

我需要解析OCR图像文件并获取所有文本和复选框值，如何从OCR解析中获取复选框或单选按钮值，以及哪一个OCR Api给出了从图像中提取的校正结果。

浏览 3提问于2014-03-01得票数 2

2回答

使用VB.net将PDF转换为文本文件

、、

我有一个扫描的PDF文件，我需要一个VB.net源代码，将扫描的PDF转换为文本格式。

浏览 0提问于2009-09-29得票数 0

1回答

视频中的vb.net字符检测与图像提取

、、、、

示例：档案持续时间:46分钟如果视频上有字幕或文字，请捕获该帧并提取到图像中。不是OCR，只是捕捉和提取图像但我不知道该怎么做。你们能给我辅导一下吗？图像提取后

浏览 1提问于2020-04-16得票数 2

回答已采纳

1回答

如何使用jTessBoxEditor提高文本识别的准确性？

、、、、

我一直在尝试从扫描的pdf文档中提取数据。我已经将pdf文件转换为jpeg文件(我在下面附上了图像链接)，裁剪具有不同字体的单词和数字，合并为tiff文件，并使用jTessBoxEditor训练字体生成新的语言，我使用该语言在Tesseract-OCR中提取文件中的数据。但我无法提取准确的数据。tesseract-ocr的文本识别准确率很低。

浏览 21提问于2020-08-31得票数 1

2回答

如何在pdf文件中复制图像中的文本？

、、

如何在pdf文件中从图像中复制文本？

浏览 0提问于2014-09-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用python从PDF中提取扫描页面

HowTo从PDF中提取嵌入的光学字符识别数据？

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

文件tesseract.exe不存在

从pdf图像文件中提取文本

在AWS中存储和执行大文本搜索

从PDF中提取文本，并将提取的文本保存在Excel或其他地方

从pdf文件中提取文本和包含文本的图像

为什么pdf2image给我一个空白的图像文件？

带有图像的PDF文件的OCR

如何使用OCR从jpg文件中提取数值

PDFBox:区分透明文本和非透明文本

使用GNU并行组合两个命令用于OCR项目

是否可以通过编程方式从视频中提取文本？

如何下载谷歌扫描的.pdf OCRed？

OCR分析获取复选框或单选按钮值

使用VB.net将PDF转换为文本文件

视频中的vb.net字符检测与图像提取

如何使用jTessBoxEditor提高文本识别的准确性？

如何在pdf文件中复制图像中的文本？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐