pdf文字提取工具_pdf文字提取_pdf提取文字 - 腾讯云开发者社区

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。但是，我得到了一个没有人类可读性的输出。我想要的信息，包含日期，发票编号从pdf链接()。请帮助我提取和存储同样的纯文本。 import PyPDF2 from PIL import Image pdf_reader = PyPDF2.PdfFileReader(r'document.pdf', 'rb') page = pdf_reader.getPage(85) if '/XObject' in page['/Resources']: xobject

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

在thunar自定义操作中，pdf分离器的转义%d

、、

我想要创建一个thunar自定义操作，让我右键单击一个PDF，然后选择“拆分PDF”来分割成单独的页面。这样做的命令是： $ pdfseparate mypdf.pdf mypdf-%d.pdf 它将为每个页面创建一个新的PDF，名为mypdf-1.pdf、mypdf-2.pdf等。%d被pdf分离器命令替换，并按照手册页的页码进行替换：概要PDF单独的PDF-文件PDF-页面模式PDF-页面模式应该包含%d (或任何有关printf格式的变体)，因为%d被页码所取代。 Thunar自定义动作用文件所在的目录插入任何%n作为选定的文件，任何%d。因此，如果我试图复制上面的命令，将mypdf.

浏览 0提问于2023-01-18得票数 2

回答已采纳

1回答

如何从PDF中提取指定内容

、

如何从PDF文件中提取指定内容并将其写入新的PDF文件？ PDF文件包含问题和答案。我想将每个问题和答案组合提取到一个新文件中。所有的问题都将以"*Q“开头。我需要在C#写的工作代码。

浏览 1提问于2011-11-30得票数 0

1回答

波斯文件的PDFBOX

、、、、

我想使用pdfBox从波斯语pdf文件中提取测试，但是它返回所有波斯字符的"?" (它正确地返回同一文档中的拉丁单词)。我怎么才能修好它？有什么建议吗？

浏览 3提问于2018-08-29得票数 3

1回答

Python文本提取不适用于某些pdfs。

、、、、

我正试图通过url读取一个pdf。我遵循了许多堆栈溢出建议，并使用PyPdf2 FileReader从pdf中提取文本。我的代码如下所示： url = "http://kat.kar.nic.in:8080/uploadedFiles/C_13052015_ch1_l1.pdf" #url = "http://kat.kar.nic.in:8080/uploadedFiles/C_06052015_ch1_l1.pdf" f = urlopen(Request(url)).read() fileInput = StringIO(f) pdf = PyPDF2.P

浏览 0提问于2015-05-16得票数 2

回答已采纳

1回答

从php中的pdf中提取文本并不适用于所有PDF文件。

、、、

我正在从PDF文件中提取文本。这是代码： <?php require("PdfToText.php"); $file = 'SamplePF' ; $pdf = new PdfToText ( "$file.pdf" ) ; echo ( $pdf -> Text ) ; ?> 这个类可以很好地处理一些PDF文件。这个类的问题是：对于一些PDF文件，它从不按页面顺序排列的随机页面/行中获取文本。对于一些PDF文件，它没有显示任何结果。对于一些PDF文件，它只提取一两行。请提出一些解

浏览 3提问于2016-11-19得票数 0

1回答

从pdf中提取段落

、、

我正在做一本pdf电子书的主题建模，需要提取文本段落。为此，我使用apache pdfBox，它可以有效地从pdf中提取文本。 PDFParser parser; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText(pdDoc); 但是我不能单独提取段落。此工具提供了一种设置段落开始/结束标识符的方法，但我需要知道用于此目的的分段符。有没有办法做到这一点，或者是否有其他可用的工具可以有效地进行段落提取？

浏览 1提问于2011-03-15得票数 0

3回答

如何合并pdf页面

我有一个pdf文件，这是从ppt (电源点演示文稿)中提取的，pdf中的一页是一张幻灯片。如何在一个页面中合并两个pdf页面？

浏览 4提问于2010-06-19得票数 2

回答已采纳

1回答

PDFBox更新版本按混乱的顺序提取数据

、

我试图使用PDFTextStripperByArea从特定的PDF区域提取数据，而我感兴趣的唯一数据是混乱的顺序，rest所有的页面数据都是正确的。这在PDFBox版本2.0.7上。当我使用传统版本1.8.x进行相同的尝试时，它正确地提取数据。与PDF中的其他数据相比，我提取的区域似乎是不同的字体。我有点搞不懂到底发生了什么错误，有没有办法使用更新的版本正确地刮取数据，因为由于其他依赖关系，我不能回到旧版本上。我所尝试的：- 在最新的PDFBox版本2.0.20上运行PDF，仍然没有成功尝试调试，结果发现setSortByPosition正在处理页面的初始步骤中进行交换，但是，

浏览 3提问于2020-07-23得票数 0

回答已采纳

1回答

从pdf文件中读取图像

、、、、

我有一个要求，客户将上传一个pdf文件，其中包含图像/s。我必须读取那个pdf文件，从它们中提取图像，然后将图像保存到db和硬盘中。但我不知道如何使用Python/Django代码从pdf文件中提取图像。是否有从pdf文件中读取和提取图像的python库。提前谢谢。

浏览 2提问于2013-08-09得票数 0

回答已采纳

2回答

安装用于PDF文本提取的弹出器

、、

我试图跟随这个博客，尝试从发票pdf文件中提取文本。我的文本提取需要提取发票的特定字段。我尝试过pdfminer，textract，但它们都将文本提取为杂乱无章的文本，之后很难提取文本。我偶然发现了下面的Poppler包下载：看起来像是一个.tar文件。而不是python包。我不确定如何使用这个.tar文件来解压包并在Python中使用它。任何建议，我如何在我的mac上安装它，然后在python中以编程方式使用它来运行一堆pdf文件来提取数据。

浏览 24提问于2020-04-24得票数 2

1回答

如何在Java中从PDF文件中提取表格数据

、、

我对从PDF文件中提取数据有疑问。我有一个PDF文件，其中有多个可用的数据表。我想从require表内容中提取数据。如何从PDF文件中提取表格数据？如何使用iText/PDFBox执行此操作？

浏览 2提问于2018-02-13得票数 0

1回答

用于读取PDF的Android

、、、

可能重复：我必须申请阅读PDF文档。我不想使用外部应用程序来读取PDF文档。是否有可在应用程序中实现的用于读取PDF的API？一个API，可以让我搜索并从PDF文档中提取文本。

浏览 2提问于2012-10-15得票数 0

1回答

从onclick = Javascript : Newwindow ()抓取链接的Regex

、、、

我需要从两种html中抓取https链接。一个是这样的 <a href="javascript:void(0)" onclick="javascript:newwindow1('https://hello.com/uploads/order/8c25ce592gfgfgfh99.pdf');"> this is some content Lorem Ipsum Lorem Ipsum Lorem Ipsum   <img src="/img/pdf.jpg" width=

浏览 4提问于2020-06-24得票数 1

回答已采纳

1回答

如何使用pdflib逐句获取文本？

是一个很好的分析PDF的软件。当我使用它从PDF中提取文本时。如何逐句提取文本？现在我只能按单词、行、页进行提取。例如，在PDF中提供以下内容： I want to extract text from pdf Sentence by sentence. Is there anybody can help? word模式每次返回一个单词(即I；want；to；extract...)，line模式每次返回一行(即我想从pdf中提取文本；句子在那里；任何男孩都可以帮助？)。页面模式返回整个段落。我想要得到的是每次的句子(例如，我想逐句从PDF中提取文本；有没有人可以帮助我？)

浏览 3提问于2016-05-22得票数 0

1回答

PDF标准是否提供了存储可提取(语义)文本的方法？

、

PDF对人类来说非常好读，但从其中提取数据却相当糟糕。有大量的工具可以从PDF中提取数据(pdftotext来自，pdftohtml，，，，...)。正如您在之类的问题中所看到的，这些工具并不是最优的。如果PDF已经以结构化的方式包含要提取的数据，那就更好了。类似于HTML的精简版本。特别是对于表，有很多信息丢失。例如，当您将Word文档转换为PDF，然后再转换为文本时。 PDF标准是否提供了存储表结构的方法？如果没有，有没有可能扩展PDF标准？这将是一个什么样的过程？

浏览 2提问于2020-07-20得票数 1

1回答

pdfreader它被阻止读取远程NodeJS文件

、、

我正在使用axios恢复一个PDF文件，并使用pdfreader库来提取代码。下面是数据恢复的代码： var options = { method: 'get', url: url, headers: { 'User-Agent': 'PostmanRuntime/7.26.8' }, timeout: 5000, responseEncoding: 'utf8', maxRedirects: 15,

浏览 7提问于2021-02-22得票数 1

2回答

用“”分隔字符串。

、

我试图用"."拆分一个字符串，但是数组中什么都没有。文件名是"Head-First-Java-2nd-edition.pdf"，在拆分后，我想提取扩展名，但不知道为什么它会给出空白数组。 my @fileInfo = split(/./, $filename); &logMsg("Array is: @fileInfo");

浏览 0提问于2013-10-01得票数 1

回答已采纳

1回答

使用ghost脚本注释pdf中的特定文本

、

我正在尝试从pdf中提取实体，并使用pdf注释将其标记回pdf。有没有什么方法可以用ghostscript注释特定的文本？谢谢

浏览 1提问于2020-05-07得票数 0

1回答

使用Pypdf2从网页转换成pdf格式的文本

、、、

我使用chrome将网页转换为Pdf，并使用了另存为pdf选项。现在的问题是，当我使用PyPDF2从其中提取数据时，它显示为空，而它很容易处理其他pdf文件。我知道我可以直接从网站提取数据，但我想知道为什么这不起作用。它显示了正确的页数，但是当我提取the ()时，它什么也没有显示。有人知道问题出在哪里吗？该页面的链接是。我把这个网页转换成了pdf。 import PyPDF2 pdfFileObj = open('C:/Users/System/Desktop/Rapping - Wikipedia.pdf','rb') pdfReader = PyPDF2.

浏览 3提问于2020-03-13得票数 0

1回答

从PDF文件中提取文档信息，比如页边距宽度？

我使用了qpdf和pdfinfo等工具从poppler获得有关PDF文档的信息。然而，我正在寻找一种方法，以获得更具体的信息，如宽度的边距，字体家族使用的，等等。pdfinfo没有得到这一信息，也没有qpdf。然而，qpdf有一个--json选项，它将PDF转换成它的JSON表示形式。我对JSON非常熟悉，但是找不到任何叫做“边距”或“字体-家庭”的属性。这样的信息是否以PDF格式记录？我不确定这个问题是否适合这个板或StackOverflow，因为如果有一些编程方法来提取这些信息(比如C或Python )，我也愿意使用它们。有什么建议吗？我的主要目标是能够复制文档中的所有页边距/字体信息

浏览 0提问于2021-09-14得票数 1

1回答

用qpdf从更大的PDF中提取页面，并保留左书签。

我用它从一个更大的PDF输入文件中提取PDF页面范围。 qpdf --empty --pages input.pdf 1051-1118 -- output.pdf 它运行得很好，但是左边的菜单(书签)消失了。有办法保护它吗？我还注意到所有的引用(文档本地链接)都被破坏了。例如，在原始文档中，有一个链接到第1055页(在我的范围内)，提取后，我希望在我的新文档中被重写到第2页。有没有一种更先进的方法来使用qpdf来做到这一点？谢谢,

浏览 0提问于2022-06-23得票数 0

回答已采纳

1回答

如何在QnA制造者中使用XML文件的内容？

、、

QnA自动从各种数据源(如PDF、DOC、Excel等)中提取问题答案对，是否可以在QnA中提取内容？

浏览 0提问于2019-01-28得票数 1

回答已采纳

1回答

在扫描的PDF文档中将图像与文本分离

、、

常规PDF文件由矢量元素(如文本和矢量图形)和其他嵌入数据(如图像文件)组成。使用诸如pdfimages (如描述的在这个问答中)这样的实用程序来提取后者非常容易。另一方面，扫描的PDF文档是扫描页面的汇编。每个页面都是位图图像，可能被OCR生成的可搜索文本层覆盖。因此，在扫描的PDF文档上运行pdfimages只会提取所扫描的页面。我正在寻找的是一个应用程序或命令行实用程序，它可以区分扫描PDF文档中的图像和文本，并提取前者。像这样的东西存在吗？

浏览 0提问于2014-09-11得票数 3

1回答

从PDF文件中所需的页面中提取文本

、

我正在尝试使用Form Recognizer - Azure认知服务从pdf文件中提取文本。我正在使用自定义模型，我用我的模型训练这个服务，然后尝试提取数据。我的PDF通常有1多页。但我感兴趣的是从第一页提取文本。Rest所有页面没有任何重要性。那么，有没有办法训练我的系统通过给定页码来从选定的页面中提取文本呢？致以敬意，马德胡

浏览 17提问于2019-10-22得票数 0

回答已采纳

1回答

从PDF中提取MP3音频或声音

、、、

MP3音频不是附件，它们不显示在Acrobat的附件面板上，它们显示在评论面板上，Adobe /Acrobat只能将它们导出到Acrobat的数据文件中，这是一个类似于pdf的数据文件。不幸的是，PDF文件不能作为档案打开，从中提取文件。那么，我如何提取MP3's？有任何免费的Linux或Windows软件可以轻松地做到这一点吗？我尝试过这些程序的免费试用，它们要么只显示评论(甚至不能播放)，要么直接导出到.fdf，要么无法显示评论，要么只能提取附件和图像：洗发水PDF Pro 2 代码行业主PDF编辑器 Foxit高级PDF编辑器 Nitro PDF Pro Systools

浏览 0提问于2020-10-06得票数 1

回答已采纳

1回答

从不同格式的pdf发票中提取数据

、、

目的是以pdf格式从发票中提取数据。 Pdf数据格式:可选择的文本(非扫描图像)由文本行、名称-值对、表(不同长度)组成。发票数据包括: invoice_no，invoice_date，order_no，order_date在名称-价值对项目详细信息(item_code，名称，利率，数量，折扣，价格等)表格式final_taxation_info和gross_total。投入:每周收到大量发票，格式相似，格式不同。产出:提取发票数据并插入数据库迄今已尝试或考虑的办法：使用库(如iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDF

浏览 4提问于2020-05-15得票数 3

1回答

有没有什么Bigdata工具可以处理pdf文档？

、、、

我必须处理PDF文档。Bigdata中有没有工具可以处理我的pdf文档(半结构化数据)？？例如..如果我的PDF文档包含任何主题，比如摘要或行动，我必须检索那些没有脚注的段落。现在我正在使用pdfBox & java API来提取我的pdf文档，但是有没有bigdata工具可以做同样的提取呢？

浏览 0提问于2013-08-27得票数 1

5回答

从PDF (google应用程序引擎)中提取文本

、、

有没有免费的Java库可以从PDF中提取文本，与Google应用程序引擎兼容？我读过关于PDFJet的文章，但是它不能读PDF，是吗？有没有其他方法可以从PDF中提取文本？我试过，不幸的是他们不能正确处理非英文字符。

浏览 6提问于2010-03-28得票数 2

回答已采纳

2回答

C/C++中从True type字体文件中提取Unicode字符值的编程实现

、、

我正在尝试从PDF中包含的嵌入式true type字体文件中提取UTF-8字符值。有没有人知道这样做的方法？PDF中的值可能类似于'2%dd！w!|<~‘，在由TTF中的相应字形表示的PDF中，这将以'Hello World’结束。我希望能够在这里提取wchar值。这个是可能的吗？TTF中是否存在每个字符的UTF-8值？

浏览 0提问于2012-07-19得票数 1

回答已采纳

1回答

从PDF中提取数据

、、、、

我有一个系统，最终从html文件创建PDF文件。它的工作原理与邮件合并非常相似。它从数据库中抓取数据，将数据合并到html文档中的palceholders中，然后将html文件转换为pdf。当我对html文件进行单元测试时，我可以查看占位符中的值。例如，如果我有一个John Smith，并且我想验证其名称是否为"John Smith“，我只需在合并后查看div的值。我需要做一些类似的事情来验证pdf中的数据。使用pdfbox和itext，我可以从一个位置提取文本，也可以从文档中提取文本，但我找不到任何可以让我创建“标签/占位符/...”的东西。并从其中提取信息，类似于我对html文

浏览 0提问于2018-10-17得票数 0

2回答

用java从PDF中提取文本的最佳方法

、、、、

我想制作一个能够读取PDF文件并解析其内容的程序。因此，我需要使用某种库来提取文本。我找到了三种方法。 OCR库(如Tesseract) ScanPdf库(如iText) 从PDF到文本的转换。我无法理解它们之间的巨大差异，因为它们最终都会从PDF中生成一个文本文件。那么，这件事的最佳方式是什么呢？

浏览 6提问于2020-12-28得票数 1

1回答

工具仅提取包含pdf的文本

是否有工具仅从pdf文件中提取文本？工具应该完全忽略图像。(i)选项忽略头和页脚的额外点数，(ii)将每个内联方程转换为一个连续的文本块。我有一个用乳胶做的pdf文件。该文件包含一些图像。有些图像包含可以选择的标签(图像是用tikz/pstricks制作的)。我尝试将pdf文件转换成纯文本，使用一些工具(例如:在线工具，口径)，但它们都在图像中提取标签，并将它们作为文本处理。我不介意工具拾取图像标题(无论哪种方式都可以)，但是在图像中拾取标签会使文本文件变得不那么有用。为什么它没那么有用？(i)语法检查，(ii)这些文本文件之间的diff提供无用的输出，如果在pdf文件的版本之间更改图像

浏览 0提问于2021-02-04得票数 0

1回答

python pypdf来读取pdf并获得突出显示的单词

、、

如何使用python pypdf来读取pdf并获得高亮显示的单词？我在pdf中突出显示了未登录的单词，我想将它们提取出来供以后参考。

浏览 2提问于2011-05-16得票数 0

回答已采纳

3回答

提取PDF的目录？

、、

在SWFTools和XPDF的帮助下，我正在将一个pdf文件提取为图像/ swf和文本。我在一个PDF脚本中运行这些。但现在我试图更进一步，尝试从PDF中获取TOC，是否可以提取此信息？

浏览 2提问于2010-03-12得票数 29

回答已采纳

1回答

PDF提取的文本似乎不可读

、

情景：我有一个使用版本1.6的PDF。在PDF中，有几个流。在这些流中有压缩文本(Flate)，所以我对这些流进行了解压缩。在此之后，我提取了相应的解压缩流的Tj部分。我假设在Tj命令之前的括号中会有可读的文本，但结果如下：的实际问题：，我不知道我有什么，我想知道它是什么类型的内容。此外:是否可以从这些字符串中提取纯文本，或者我是否需要进一步的信息来提取纯文本？进一步研究：PDF，我尝试分析iTextSharp生成的地方(似乎是用于生成PDF的C#库)。不知道这是否相关的信息，但可能是图书馆使用一种特殊的方式加密它的文本数据或其他什么.

浏览 1提问于2017-02-14得票数 1

回答已采纳

1回答

从PDF中提取文本时出现异常字体

、、、、

我一直在尝试从PDF文件中提取文本，大多数文件似乎都工作得很好。但是，有一种特殊的文档具有这种不同寻常的字体的文本：我尝试过使用PHP和Python进行解压，但都无法修复此字体。我尝试复制文本，并试图看看我是否可以得到它在文本编辑工具，但不能做much.Please注意，原始的PDF文件看起来很好，但当文本被复制和粘贴在文本编辑工具中，字符之间的间隙开始出现。我完全不知道该怎么办。请建议使用PHP/Python (最好是PHP)解决此问题。

浏览 30提问于2020-07-07得票数 1

回答已采纳

1回答

使用DL从PDF中提取信息

我们有从信用历史文件中提取信息的要求。通常是PDF和计算机生成的文档。因为这些PDF是由不同的源生成的，因此每个源的文档布局都不同。列标题标签也会有所不同。目前，有4个来源正在产生这份文件，但今后，它将来自多个来源。从每一份文件中，我们将需要提取诸如贷方名称、贷款额、未清余额等信息；我需要知道提取我想要的数据的步骤和实际方法，如贷方名称、金额、余额等；我们是否有一个既定的机器学习/深度学习方法可以在这里实现？只需了解ML/DL的基本知识，因此需要一个方向。

浏览 0提问于2020-01-07得票数 1

1回答

如何批量解压pdf？

、、

我有一个食谱的PDF列表，我想嵌入到我的食谱网站。有没有办法批量提取整个文本和格式？我将与100的pdf的工作。

浏览 4提问于2019-08-10得票数 0

3回答

以编程方式或通过调用外部实用程序从PDF提取字体

、

我正在开发PDF到电子书的转换器，这将在服务器上运行。我需要以编程方式从PDF文件中提取嵌入式字体来完成该项目。现在我可以提取图像和文本，但为了在Flash播放器中准确显示内容，我需要从PDF中提取字体并编译为SWF，以便在运行时由Flex应用程序加载。我想知道这是否可能，因为SWFTools的pdf2swf.exe这样的工具可以做到这一点。我已经反编译了这个工具生成的swf文件，里面嵌入了字体。提取的字体将用于仅在Flash player中显示PDF文件中的相同内容。所以我认为这不会侵犯任何权利？此外，将使用该转换器的人拥有PDF文件内容的所有权限。所以我看到了下一个工作流程: 1.

浏览 1提问于2009-11-18得票数 0

回答已采纳

1回答

更快地替代PDFcrop

、、、

背景目前，我正在使用PDFcrop来减少由我的笔记本电脑打印到PDF设备生成的多页PDF文件的不需要的边距。问题是，PDFcrop非常慢。对于一个15页的文档，使用以下语法处理需要17分钟。 pdfcrop --margins "-1 0 -1 -2" Raw.pdf Cropped.pdf &> /dev/null 不用说，这是不可接受的，因为事实上，我将做一个类似的过程，以完全相同的方式生成的PDF文件，将超过150页。我不喜欢让我的电脑在一夜之间单独运行。我已经考虑过使用PDFjam来裁剪页面，但是它并不像预期的那样工作。我使用了下面的命令，它从我的P

浏览 0提问于2016-01-21得票数 5

1回答

PDFBox :在提取文本时维护PDF结构

、

我正在尝试从PDF中提取文本，PDF中充满了表格。在某些情况下，列是空的。当我从PDF中提取文本时，emptys列会被跳过并替换为空格，因此，我的正则表达式无法确定在这个位置有一个没有信息的列。更好地理解图像：我们可以看到，在提取的文本中，列并不受尊重。从PDF中提取文本的代码示例： PDFTextStripper reader = new PDFTextStripper(); reader.setSortByPosition(true); reader.setStartPage(page); reader

浏览 2提问于2017-08-23得票数 3

回答已采纳

2回答

iText在安卓系统上的文本提取/阅读

、、

我和iText有点问题。其他人说iText只用于创建PDF？而且它不能从PDF中读取或提取文本。这是真的吗？如果这是真的，那么我还可以选择哪些其他选项来从PDF文件中提取文本并将其保存在变量中或显示在Android设备中？如果iText能够从PDF中提取文本，那么如何提取呢？

浏览 0提问于2012-10-22得票数 2

回答已采纳

1回答

使用iTextSharp从PDF中提取PDF417条形码并获取其数据

、

我们将通过电子邮件将交互式PDF发送给人们，他们将完成它们并通过电子邮件将它们发送回来。在概念验证中，我使用iTextSharp将一个PDF417条形码图像放在PDF上。PDF包含一些其他图像。当完成的PDF发回给我们时，如何从PDF文档中查找和提取条形码图像？一旦我们有了条形码图像，我们如何获取使用barcode.SetText(value)设置的数据

浏览 25提问于2016-08-10得票数 2

回答已采纳

1回答

从PDF中提取页面时Ghostscript丢失字体

、

我使用可用的命令行将PDF拆分为多个页面： for G in $(seq 1 $(pdfinfo 47.pdf | sed -n 's/Pages:[^0-9]*$[0-9]*$.*/\1/p')) ; do gs \ -dSAFER \ -sDEVICE=pdfwrite \ -dBATCH \ -dNOPAUSE \ -dFirstPage=$G \ -dLastPage=$G \ -o $G.pdf \ 47.pdf ; done 但某些页面显示时没有文本(图形仍然存在) 因此，我尝试从PDF中

浏览 0提问于2012-06-25得票数 0

1回答

如何从提交的PDF表格中提取徒手书写？

、

我需要从提交的PDF表单中提取徒手书写，或者以Base64字符串的形式提交(在这种情况下，表单将以XML的形式提交)。我需要使用PDF JavaScript访问写作，序列化它，并将它与其他字段值一起提交。如何访问写入-PDF格式的JavaScript ()？谢谢

浏览 3提问于2017-02-22得票数 0

回答已采纳

1回答

djvu的命令行实用程序？

、

有一个很好的实用工具叫做pdftk，用于组合pdf文件、提取pdf文件的部分以及其他例程转换。在djvu格式上有类似的东西吗？

浏览 0提问于2014-06-08得票数 3

回答已采纳

1回答

Ghostscript没有从PDF文件中提取所有文本

、

我使用鬼怪脚本8.71从PDF页面中提取文本。我使用的命令是： gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \ -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \ -dLastPage=1 input.pdf -dQUIET 我正在使用<stdout>将文本定向到另一个文件。但问题是Ghostscript没有提取一些可搜索的文本项。某些字体文本未被提取，例如:用粗体字符表示的Verdana。但

浏览 3提问于2010-09-01得票数 1

2回答

使用Python进行PDF解析-提取格式化文本和纯文本

、、、、

我正在寻找一个PDF库，将允许我从PDF文件中提取文本。我看过PyPDF，它可以很好地从PDF文档中提取文本。我想从PDF文档中提取文本，不包括任何表格和特殊格式。有没有这样的图书馆呢？

浏览 57提问于2009-12-05得票数 82

回答已采纳

1回答

pdfbox给定坐标与xml(相同的pdf转换为xml)坐标不匹配？

、

通过使用PDFBOX我提取了文本坐标。并且我将PDFto xml转换为 pdf2txt.py -t xml input.pdf output.xml 当我比较两个坐标时，有一些不匹配的地方。我可以知道原因吗，有没有办法得到提取坐标。 pdfbox [157.1999969482422, 727.4400024414062, 170.68670654296875, 727.4400024414062] -C [170.68670654296875, 727.4400024414062, 183.14602661132812, 727.4400024414062]

浏览 39提问于2020-11-12得票数 0