pdf文字识别工具 - 腾讯云开发者社区

、、

我如何安装一个PDF阅读器，像“杂技XI专业”，让我突出文本，有文字识别，让我组合和转换PDF格式和其他格式？

浏览 0提问于2015-02-02得票数 0

1回答

wkhtml to pdf不支持日语字符

我在我的应用程序中使用wkhtmltopdf工具来生成pdf。但日文字符不会以pdf格式出现。wkhtmltopdf工具不支持日语字符。有什么办法解决这个问题吗？

浏览 2提问于2017-03-25得票数 2

1回答

查找没有文本的PDF

、、

我有很多文件夹与很多PDF，我想要光学字符识别那些没有文字层。所以首先，我想找到他们。我以为也许用pdfgrep的烟斗就能做好这份工作，但我迷路了。如何找到没有文本的PDF？

浏览 0提问于2021-01-15得票数 5

回答已采纳

1回答

如何使用Firebase ML工具包识别PDF文件中的文本？

、、

我正在开发一个Android应用程序来检测PDF文件中的文本。我试着测试更多

浏览 1提问于2019-03-07得票数 0

2回答

可将OCR文本插入回源PDF的OCR库

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

1回答

我使用了qpdf和pdfinfo等工具从poppler获得有关PDF文档的信息。然而，我正在寻找一种方法，以获得更具体的信息，如宽度的边距，字体家族使用的，等等。然而，qpdf有一个--json选项，它将PDF转换成它的JSON表示形式。我对JSON非常熟悉，但是找不到任何叫做“边距”或“字体-家庭”的属性。这样的信息是否以PDF格式记录？现在，我必须使用PDF查看器提供的工具，使用光标使用坐标计算边距(或任何长度)，至于字体，我必须猜测它们。

浏览 0提问于2021-09-14得票数 1

3回答

为什么我的第三方HTML转PDF工具无法在使用打印模块的Drupal 6中识别？

、、、

我已经安装了Drupal6，并安装了“打印机、电子邮件和PDF版本”，也就是“打印”模块。然后，我意识到为了从html节点生成PDF，我需要一个第三方工具，这很好，但是打印模块无法识别我安装在/modules/ Print /lib/目录中的第三方工具。我在“主页>管理>站点配置>打印机、电子邮件和PDF版本”页面中看到以下错误： “找不到PDF生成工具！请下载支持的PDF生成

浏览 5提问于2009-12-07得票数 1

1回答

是否有任何不基于OCR的通用布局分析库或工具？

、

我正在寻找布局分析库或工具(最好是开源的)，可以应用于文本PDF，以识别主要文本内容与侧栏，章节标题，章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具，它们使用光学字符识别和图像识别来识别布局。有没有库可以在没有OCR的情况下做同样的事情？可以从文本PDF中提取文本和图像，并将包含文本和图像位置的输入提供给该工具；对于此类文件使用OCR将是相当繁琐的。

浏览 2提问于2013-05-08得票数 2

回答已采纳

1回答

我需要关于在网络上显示(和/或转换) pdf文件的建议

、、、

我们也想接受PDF，但我不确定显示PDF或将其转换为html的最佳方式是什么。或者，我们可以忘记直接显示PDF文件，而是像处理Word文档那样将它们转换为html，但我还没有遇到一个好看的库来实现这一点。最后一件事，我们计划为付费客户提供下载原始PDF文件的选项。这可能会很复杂吗？在构建流程的其余部分时，有什么是我应该牢记的吗？

浏览 2提问于2012-03-24得票数 3

1回答

使用LEADTOOLS和pdf工具将PDF文档转换为jpeg

、、

我们有pdf文档(来源:相机或扫描仪)，我们想要转换为jpeg。我们更希望从源pdf文件中获取此值。例如: Adobe Acrobat软件识别源pdf文件DPI，并使用该文件创建jpeg文件。有没有什么方法可以通过确定源pdf文件的DPI来使用LEA

浏览 6提问于2015-07-19得票数 1

1回答

删除pdf文件的所有页面上的水平顶部条。

、

我有一个pdf文件，其中包含大约三行文字在每一页的顶部。是否有任何方法从这个pdf文件的所有页面使用任何命令行工具删除2cm水平条带。我用的是ubuntu。

浏览 0提问于2016-12-29得票数 4

回答已采纳

1回答

文字识别如何使用？

浏览 627提问于2020-01-11

2回答

除PDF以外的所有文件链接的JS RegEx

、

我正在尝试匹配HTML文档中包含特定文件夹链接的所有href属性，而不是PDF。我很难让它匹配，我有一个可以得到所有PDF的：但我排除PDF的尝试并没有让我走得太远。有没有办法做我想要的，或者我只是匹配所有的文件而不是使用条件语句来检查它是否是PDF？谢谢！达伦

浏览 1提问于2013-06-04得票数 0

2回答

带有突出显示工具的阅读器

、

我想要一个pdf阅读器，就像带高亮工具和全屏模式的adobe阅读器。还有随背景变化，文字颜色的特征？

浏览 0提问于2018-03-01得票数 1

1回答

如何从带有pdfimages的简历中仅提取身份证照片

、、、、

您好，我尝试使用pdfimages从我的pdf简历文件中提取ID图像。但是，对于某些文件，它们还会返回完全不相关的图标、表格线和边框图像。有没有什么办法我可以限制它只提取个人照片？

浏览 4提问于2018-09-11得票数 0

1回答

在thunar自定义操作中，pdf分离器的转义%d

、、

我想要创建一个thunar自定义操作，让我右键单击一个PDF，然后选择“拆分PDF”来分割成单独的页面。这样做的命令是：它将为每个页面创建一个新的PDF，名为mypdf-1.pdf、mypdf-2.pdf等。%d被pdf分离器命令替换，并按照手册页的页码进行替换：概要PDF单独的PDF-文件PDF-页面模式PDF<

浏览 0提问于2023-01-18得票数 2

回答已采纳

1回答

从可搜索的pdf中读取，不带ocr

我目前正在使用扫描仪将我的PDF转换为可搜索的PDF。OCR已经处理好了，因为我可以在PDF中使用ctrl-f。但是，我如何才能从我的程序中获取OCR的内容。

浏览 1提问于2011-12-15得票数 0

1回答

Tabula-py解析pdf时出现字体错误tahoma

、、、

我试图用解析我的pdf，但是我得到了这个错误# from matplotlib import pyplot as pltfrom tabula import read_pdf_table# Converting first page into JPG with Image(filename="ed.pd

浏览 4提问于2016-10-13得票数 1

1回答

有人知道如何用毫升试剂盒在颤栗中检测数字。

、、

我只想用毫升试剂盒来检测数字。短信检测的很好，但是我想搜索谷歌很多次的号码，但是没有得到我想要的答案。我可以把它设置为只检测数字，而不是检测数字以外的任何东西吗？

浏览 4提问于2022-09-19得票数 -1

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Acrobat XI Pro喜欢pdf阅读器

wkhtml to pdf不支持日语字符

查找没有文本的PDF

如何使用Firebase ML工具包识别PDF文件中的文本？

可将OCR文本插入回源PDF的OCR库

从PDF文件中提取文档信息，比如页边距宽度？

为什么我的第三方HTML转PDF工具无法在使用打印模块的Drupal 6中识别？

是否有任何不基于OCR的通用布局分析库或工具？

我需要关于在网络上显示(和/或转换) pdf文件的建议

使用LEADTOOLS和pdf工具将PDF文档转换为jpeg

删除pdf文件的所有页面上的水平顶部条。

文字识别如何使用？

除PDF以外的所有文件链接的JS RegEx

带有突出显示工具的阅读器

如何从带有pdfimages的简历中仅提取身份证照片

在thunar自定义操作中，pdf分离器的转义%d

从可搜索的pdf中读取，不带ocr

Tabula-py解析pdf时出现字体错误tahoma

有人知道如何用毫升试剂盒在颤栗中检测数字。

如何使用doc取器在PDF文件中搜索文本？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐