pdf扫描文字 - 腾讯云开发者社区

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

2回答

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

、、

我转换pdf到tiff图像与图像魔术，从500 to到4.6mb的文件大小。convert \pph-psd.tiffTiff图像：为什么会发生这种情况，以及如何将pdf扫描图像转换为最适合ocr

浏览 1提问于2018-05-16得票数 0

回答已采纳

1回答

如何从PDF文件中正确提取日文txt

、

我需要从pdf文件中提取文本。谁能给我一个如何处理的提示？

浏览 5提问于2022-02-22得票数 1

回答已采纳

1回答

加农炮MP140设置

、、

我想安装我的佳能打印机扫描仪MP140与Ubuntu到目前为止的结果。我不能打印excel，文字，pdf文件。

浏览 0提问于2014-04-23得票数 0

2回答

如何确定是否扫描了.pdf文件的内容

、、

因此，我有一个.pdf文件，我需要能够确定它是否是通过扫描到PDF中创建的。我正在尝试确定它是否是我可以显示为文本的pdf。$pdf->properties['Producer']有没有办法确定我处理的是哪种类型的.pdf文件？

浏览 6提问于2010-03-05得票数 3

回答已采纳

1回答

使用xsane作为没有扫描器的OCR

、

当我启动xsane时，它会以不可访问的消息退出。如何抑制设备搜索？

浏览 0提问于2015-07-03得票数 1

2回答

用python打开不带文本的pdf

、

我希望为Django视图打开一个PDF，但是我的PDF没有文本，python返回给我一个空白PDF。在每一页上，这是对一个页面的扫描： with open(path) as pdf: response = HttpResponse(pdf.read(),content_type='application/

浏览 1提问于2018-09-17得票数 0

回答已采纳

3回答

找不到bash grep文件

、

我希望应用一些基于grep搜索的命令，我执行了grep -l "If you wish to distribute" *.pdf，并且看到了我想要处理的文件，但是使用以下bash脚本，这些文件不会被处理/bin/bash -x grep -l "$text1" *.pdf<

浏览 1提问于2012-10-29得票数 1

1回答

如何判断pdf文件中隐藏的文本层是否来自OCR？

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

1回答

免费Windows OCR软件

、、

我有一些PDF，其中包含扫描打印-作为图像。有些是有插图或没有插图的书，有些是带有混合文字和图形的漫画(所有这些都没有版权)。

浏览 0提问于2020-05-19得票数 0

回答已采纳

1回答

使用PDFRenderer打印PDF* -形状不是锐利的*

、、

我需要打印PDF运输标签。这些标签是PDF格式的。印刷的运输标签有尖锐的文字，但有问题的条形码有小的“齿轮齿”-条形码-条纹是不光滑的边缘，这是问题的扫描仪。我试图使用PDF-创建者作为打印机，并将其打印到文件-条形码是尖锐的，然后(在PC显示器)。我也尝试使用PDF-创建者打印已经创建的文件(如上面所示)，然后用PDF打印它，在这种情况下条形码是尖锐的。

浏览 2提问于2017-04-20得票数 0

回答已采纳

7回答

连接路径和文件名

、、

soffice.exe', '--convert-to', r'C:\Users\A\Desktop\Repo\'+filename]) SyntaxError:扫描字符串文字时的

浏览 5提问于2016-11-14得票数 8

回答已采纳

1回答

无法打开用gscan2pdf乳胶创建的简单pdf

、

所以，我想从多个地方做一个pdf。为此，我决定使用gscan2pdf。我有一堆“”打开得很好。\documentclass{article}\begin{document}test警告: gscan2pdf期望每页有一幅

浏览 0提问于2020-07-09得票数 1

回答已采纳

1回答

关于拆分PDF和OCR识别

、、、

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。提前感谢您……

浏览 18提问于2021-04-20得票数 0

回答已采纳

2回答

用java从PDF中提取文本的最佳方法

、、、、

我想制作一个能够读取PDF文件并解析其内容的程序。因此，我需要使用某种库来提取文本。我找到了三种方法。OCR库(如Tesseract) 我无法理解它们之间的巨大差异，因为它们最终都会从PDF中生成一个文本文件。

浏览 6提问于2020-12-28得票数 1

2回答

使用PB、EZTWAIN和TOCR 3.0无法识别带有希腊语单词的pdf扫描页面

、

Iam使用Dosadi的PB 10.5.2和EZTwain 3.30.0.28，XDefs 1.36b1进行扫描。问题是，扫描的pdf页面包含拉丁语(对英文字符的搜索非常精确，但对希腊语字符的搜索则完全不精确。提前感谢

浏览 4提问于2010-04-08得票数 1

2回答

LibreOffice中的光学字符识别

我扫描了它，得到了16份jpeg文件。每个jpeg都是一个扫描页面。现在，我需要一个OCR将每个jpeg转换成文本，以便将这个表插入到excel文档中。

浏览 0提问于2013-07-03得票数 3

1回答

书籍页的最佳图像文件格式

、、

我想扫描图书页面，并将图像组合成一个pdf“电子书”(仅为我)，但文件的大小变得非常大。即使是.jpg，也产生了一个60mb+大小的pdf文件。谢谢你的帮助。我试着将它保存为.jpg和其他文件格式(如.png )，但没有得到足够小的文件，使其易于处理，而不会影响到很高的分辨率。

浏览 2提问于2022-11-27得票数 0

1回答

在OSX中为扫描手写便笺的PDF添加文本层

、、

在课堂上，我喜欢手写的笔记，然后我扫描它们，然后把它们打出来(帮助我记住它们，也使它们易于搜索)。主要的问题是，我使用了大量的绘图和复杂的数学，将数学公式转换成胶乳(或word)非常耗时，绘图要求我保存PDF和文本文档。我想做的是把我自己输入的基本文本(没有OCR)添加到PDF的文本层中，这样PDF就可以搜索，并且我可以通过不转换数学或绘图来节省很多时间。

浏览 9提问于2013-09-12得票数 2

1回答

具体来说，我正在创建一个工具，将一组扫描页面转换为支持搜索和copy+paste的PDF。我理解这通常是如何做到的: OCR页面，保留文本的位置，然后将文本作为不可见层添加到PDF中。Acrobat具有此功能，tesseract可以输出hOCR文件(包含识别的文本及其位置)，hocr2pdf可以使用这些文件生成文本层。将已经知道的文本与扫描页面上的位置匹配起来似乎要容易得多，但我没有发现任何具有这种内置功能的软件。我如何利用现有的软件来做到这一点？编辑:文字的大小和字体各不相同，尽管段

浏览 3提问于2015-02-23得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可将OCR文本插入回源PDF的OCR库

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

如何从PDF文件中正确提取日文txt

加农炮MP140设置

如何确定是否扫描了.pdf文件的内容

使用xsane作为没有扫描器的OCR

用python打开不带文本的pdf

找不到bash grep文件

如何判断pdf文件中隐藏的文本层是否来自OCR？

免费Windows OCR软件

使用PDFRenderer打印PDF* -形状不是锐利的*

连接路径和文件名

无法打开用gscan2pdf乳胶创建的简单pdf

关于拆分PDF和OCR识别

用java从PDF中提取文本的最佳方法

使用PB、EZTWAIN和TOCR 3.0无法识别带有希腊语单词的pdf扫描页面

LibreOffice中的光学字符识别

书籍页的最佳图像文件格式

在OSX中为扫描手写便笺的PDF添加文本层

在图像中查找已知文本(引导OCR)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐