pdf可以识别文字 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

可将OCR文本插入回源PDF的OCR库

pdf、ocr

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

2回答

Acrobat XI Pro喜欢pdf阅读器

application-development、pdf、adobe-reader

我如何安装一个PDF阅读器，像“杂技XI专业”，让我突出文本，有文字识别，让我组合和转换PDF格式和其他格式？

浏览 0提问于2015-02-02得票数 0

2回答

柬埔寨字母表上的交货单

php、prestashop、prestashop-1.7

我得到了一个问题与Prestashop 1.7.4.2交货单，它不能识别高棉文字母。有谁可以帮助我用哪种字体来显示这些字母？我已经在\override\classes\pdf\PDFGenerator.php中添加了支持的字体，但它不起作用。

浏览 1提问于2020-06-10得票数 2

1回答

查找没有文本的PDF

find、pdf、ocr

我有很多文件夹与很多PDF，我想要光学字符识别那些没有文字层。所以首先，我想找到他们。我以为也许用pdfgrep的烟斗就能做好这份工作，但我迷路了。如何找到没有文本的PDF？

浏览 0提问于2021-01-15得票数 5

回答已采纳

1回答

如何使用Firebase ML工具包识别PDF文件中的文本？

android、firebase、firebase-mlkit

我正在开发一个Android应用程序来检测PDF文件中的文本。所有都是一样的，

浏览 1提问于2019-03-07得票数 0

2回答

除PDF以外的所有文件链接的JS RegEx

javascript、regex

我正在尝试匹配HTML文档中包含特定文件夹链接的所有href属性，而不是PDF。我很难让它匹配，我有一个可以得到所有PDF的：但我排除PDF的尝试并没有让我走得太远。有没有办法做我想要的，或者我只是匹配所有的文件而不是使用条件语句来检查它是否是PDF？谢谢！

浏览 1提问于2013-06-04得票数 0

1回答

使用Java和Itext编辑PDF文本

java、itext

有办法编辑PDF文档文本吗？比如找到和替换特定的文本？我能够编辑特定坐标(x，y)的pdf，但无法识别和替换。我看到的所有库都是从零开始创建的PDF和小的编辑功能。不管怎样，我可以用itext编辑上面的解释吗？请advise...thank你！ **例子:一份pdf文件载有以下的副翼。是最古老的古希腊和拉丁文，在单词或其他文字之间几乎没有空格，可

浏览 5提问于2014-07-10得票数 2

1回答

哪种中文字体是中国人民的PDF阅读器普遍支持的？

pdf、fonts

我正在生成PDF文件，其中包含英文和中文字符(使用Ruby对虾库)。我不想在生成的PDF文件中嵌入中文字体文件，因为这些文件需要保持较小。所以，我想知道我是否可以在PDF文件中提到一个中文字体名，让PDF阅读器正确地呈现汉字，因为PDF阅读器已经有了中文字体文件。这有道理吗？如果是这样的话，在大多数中国人使用的PDF阅读器中是否会安装一些常用的中文字体？

浏览 2提问于2015-05-06得票数 2

回答已采纳

1回答

关于拆分PDF和OCR识别

python、pdf、split、ocr

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。提前感谢您……

浏览 18提问于2021-04-20得票数 0

回答已采纳

1回答

帮助Canon CanoScan LiDE扫描PDF文档

pdf、canon、scanner、ocr

当我使用Windows 7中的扫描仪，并将扫描过的书籍页保存为PDF格式时，我可以打开PDF扫描页面并直接从其中复制文本以粘贴到Google或任何LibreOffice文档。我通过简单的扫描将页面扫描为文本，并将其保存为PDF格式。但是在Ubuntu中，当我打开扫描的PDF页面时，它会打开OK，但是我不能复制文本。

浏览 0提问于2014-03-16得票数 2

回答已采纳

2回答

使用java从pdf中识别和提取表格

pdf、itext、pdfbox、java

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。有人能告诉我如何用iText &

浏览 12提问于2017-03-31得票数 1

1回答

docx转换为朝鲜语字体的pdf

java、pdf、fonts、docx4j

这是关于docx到pdf的转换，在docx文档中有韩语签名。我可以用docx4j把一个文档转换成pdf。S

浏览 4提问于2013-10-21得票数 0

1回答

我正致力于捕获对show的postscript调用，并将当前字体和字体大小存储到pdf文本对象中输出。但是identify给了我一个错误： **** Error reading a content stream.pd0.pdf[0] PBM 612x792 612x792+0+0 16-bit Bilevel Gray 61KB 0.000u 0:00.000 pd0.pdf[1] PBM 612x792 612x792+0+0 16-bit Bilevel Gray 61KB

浏览 1提问于2018-02-12得票数 0

回答已采纳

1回答

从PDF文件中提取文档信息，比如页边距宽度？

pdf

我使用了qpdf和pdfinfo等工具从poppler获得有关PDF文档的信息。然而，我正在寻找一种方法，以获得更具体的信息，如宽度的边距，字体家族使用的，等等。然而，qpdf有一个--json选项，它将PDF转换成它的JSON表示形式。我对JSON非常熟悉，但是找不到任何叫做“边距”或“字体-家庭”的属性。这样的信息是否以PDF格式记录？我的主要目标是能够复制文档中的所有页边距/字体信息(假设它们是一致的，并且是从TeX或LaTeX之类的程序中生成的)，这样我就可以复制它们的精确样式。现在，我必须使用P

浏览 0提问于2021-09-14得票数 1

1回答

在Java中使用iText替换占位符

java、pdf、itext

我有一个包含像<%DATE_OF_BIRTH%>这样的占位符的PDF，我希望能够在PDF中阅读并使用iText将PDF占位符值更改为文本。因此，在PDF中阅读，使用replaceString()方法并更改占位符，然后生成新的PDF。谢谢。

浏览 3提问于2014-04-15得票数 2

8回答

OCR文字识别技术有哪些应用？

文字识别

OCR 是实时高效的定位与识别图片中的所有文字信息，返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别，以及中英文、字母、数字的识别。简单来说就是将图片上的文字内容，智能识别成为可编辑的文本，这么强大的功能在我们生活当中有哪些应用呢？

浏览 3847提问于2018-08-24

1回答

直接编辑PDF然后删除编辑仍然会导致pdf损坏。

pdf

我的PDF看起来很好，直到我编辑了它，现在它似乎仍然被破坏，即使我删除了我的编辑。文件diff程序表示这两个文件是相同的，但只有一个文件显示信息。复制：2)在文本编辑器中打开PDF并在顶部添加文本4)删除步骤2中添加的文本是否有任何方法可以将文本添加到PDF</

浏览 5提问于2017-07-27得票数 0

回答已采纳

点击加载更多

可将OCR文本插入回源PDF的OCR库

Acrobat XI Pro喜欢pdf阅读器

柬埔寨字母表上的交货单

查找没有文本的PDF

如何使用Firebase ML工具包识别PDF文件中的文本？

除PDF以外的所有文件链接的JS RegEx

使用Java和Itext编辑PDF文本

文字识别可以识别电子账单吗？

哪种中文字体是中国人民的PDF阅读器普遍支持的？

OCR可以识别PDF文件吗？

关于拆分PDF和OCR识别

帮助Canon CanoScan LiDE扫描PDF文档

使用java从pdf中识别和提取表格

文字识别可以识别空格并保留吗？

docx转换为朝鲜语字体的pdf

读取内容流时出错

从PDF文件中提取文档信息，比如页边距宽度？

在Java中使用iText替换占位符

OCR文字识别技术有哪些应用？

直接编辑PDF然后删除编辑仍然会导致pdf损坏。

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐