从PDF文件中所需的页面中提取文本

文章/答案/技术大牛

发布

1回答

ghostscript提取包含文本字符串的页面

、、

我需要以编程方式从一个多页pdf提取，只包含一个文本字符串的页面。有没有可能或者我需要一些其他的工具？我正在使用aix。提前感谢

浏览 0提问于2016-01-26得票数 0

1回答

从PDF格式的嵌套表中提取数据

、、、

我有几个pdf文件是从word或excel文件中创建的。我需要获取表中的信息。文档中的文本不是图像，所以我能够使用pdfbox之类的工具提取文本。当我有文本时，我无法知道它属于哪些单元格，因为我不知道表的边框在哪里。Iv‘e尝试了一些桌面工具，比如abby或solid pdf转换器，它们能够实

浏览 3提问于2010-08-20得票数 3

1回答

Gtts库错误。我不知道为什么会发生这个错误，也不知道如何修复它们

、

我试图将pdf转换成音频文件，但是当我运行我的代码时，我会从gtts自由主义中得到一些错误。如果有更好的自由使用，听起来不像一个机器人，请让我知道错误是，我的代码是#Importing Google Text to Speech libraryimport PyPDF2 <

浏览 10提问于2022-12-04得票数 0

3回答

如何使用Apache Tika获取PDF中元素的样式信息？

、、

我正在使用Apache Tika从PDF文件中提取文本。我想知道如何使用Apache Tika获取样式信息，如字体大小、文本颜色、特定文本(几个单词)是否为斜体、粗体等？有没有可能获得这种类型的信息？另外，我想知道是否可以使用Apache Tika获取表格信息？表的开始、第一行的开始、第一个单元格等信息。

浏览 95提问于2013-10-07得票数 4

回答已采纳

2回答

在PDF中链接文本的编程方法

、、、

我正在寻找一些方法来编码一个函数(我在这一点上对任何语言或库开放)，以现有的PDF文件作为输入，并返回一个修改后的PDF文件，将某些单词链接到不同的URL。我知道PHP和ColdFusion都有很好的工具来处理PDF，但是我还没能找到任何有效的工具。我一直在通过Acrobat并手动链接文本来做到这一点，我想知道是否有任何方法可以自动执行这一过程。

浏览 0提问于2010-01-10得票数 2

回答已采纳

2回答

如何在一个庞大的PDF中删除页面顶部不包含特定单词的页面？希望在C#

、

所以我有这个2300+ pdf PDF，我需要处理。第一步必须删除我不需要的页面。例如，1到24页不包含我需要的任何信息，然后25到28页我确实需要，29到54页我不需要，等等。每一页我需要的页数和我不需要的页数随每一节而不同。但我需要保留的每一页上都有"5天M.A.R.“在页面的顶部，所以任何不包含该内容的页面都需要删除。理想情况下，如果有一种方法可以创建一个C# (或类似的)应用程序，

浏览 6提问于2014-11-11得票数 0

1回答

、

我正在尝试使用Form Recognizer - Azure认知服务从pdf文件中提取文本。我正在使用自定义模型，我用我的模型训练这个服务，然后尝试提取数据。那么，有没有办法训练我的系统通过给定页码来从选定的</

浏览 17提问于2019-10-22得票数 0

回答已采纳

2回答

如何使用PDFTable或PDFTableExtractor类从java中的PDF文件中读取值？

、、、、

我尝试使用PDFTextStripperByArea和PDPageContentStream类从我的pdf文件中提取数字值。他们工作得很好！但我的要求是使用PDFTableExtractor类或PDFTable来读取pdf内容。您能告诉我访问上述类所需的、maven依赖项、和jar文件是什么吗？还提到从特定位置获取值所需的方法。我们可以从

浏览 4提问于2018-01-23得票数 0

回答已采纳

3回答

免费的开源Java库来转换PDF* -Image，PDF，PDF -提取图像和文本*

、、

我需要Java库来执行以下任务: 1)将Pdf页面转换为图像2)从PDF页面中提取html文本，并在页面上有位置)从PDF页面中提取图像 BFO -它的付费库，但能够

浏览 6提问于2012-10-30得票数 3

回答已采纳

4回答

如何在lucene中索引pdf，ppt，xl文件(基于java或者python或者php都可以)？

、、

我还想知道如何在索引时添加元数据，以便提高一些参数

浏览 1提问于2010-04-06得票数 4

回答已采纳

1回答

文档理解是从UiPath中所有pdf页面中提取数据。

、、、、

我正在使用文档理解UiPath从多个pdf文件中提取数据。每个pdf文件包含同一页的多份副本，我无法删除。的问题是：2.) --它也是提取它下面的其他无关数据--以及所需的</e

浏览 7提问于2022-03-08得票数 1

1回答

从PDF文件获取文本属性

、

如何使用或获取文本属性？我需要字体大小和样式信息。$pdf->getPageContent(1); 但里面有文字信息。

浏览 0提问于2014-08-12得票数 0

2回答

perl中的pdf解析

、、

我试图从pdf中提取一些信息。我正在尝试使用来自getpdftext.pl模块的CAM::PDF。当我只运行$~ getpdftext.pl sample.pdf时，它会生成一个pdf文本到stdout。但我正在考虑将其写入文本文件，并解析perl中所需的字段。有人能指点我怎么做吗？但是，当我试图在perl脚本中调用pdftotext.pl时，我会得到一个No

浏览 3提问于2011-10-06得票数 4

1回答

从UTF-8格式pdf文件中读取并以cp1252格式写入写入器。

、、、、

我正在尝试使用文件流从一个pdf文件中读取，我想用cp1252编码格式将它写给一个作者。oos.toString(out,"UTF-8");writer.write(ch);oos.close(); 但是输出是错误的，因为文本是不可读的(没有正确转换)。

浏览 3提问于2016-03-21得票数 0

5回答

使用python从MS word docx文件中逐页提取文本

、、、、

我有一个MS文件，我需要从其中提取文本分页。我尝试过python，但它可以提取整个文本，但不能提取页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后，docx的页面结构发生了变化。例如，在转换时，字体大小被更改，而docx的一页中的文本内容在pdf中占用了

浏览 9提问于2019-12-18得票数 4

回答已采纳

1回答

如何:打开C#，突出显示搜索结果，并将突出显示保存回PDF

、、、、

我使用的是itextsharp.dll。在高亮显示pdf中的文本后，我想保存高亮显示的pdf文件，以便当重新打开PDF时，它仍然高亮显示。有什么想法吗？

浏览 2提问于2011-07-04得票数 5

11回答

如何在Python 3.7中从pdf中提取文本

、、、、

我正在尝试使用Python从PDF文件中提取文本。我的主要目标是试图创建一个程序，读取银行对账单，并提取其文本，以更新excel文件，以方便地记录每月的支出。现在我只专注于从pdf文件中提取文本，但我不知道如何做到这一点。当前将PDF文件中的文本<

浏览 203提问于2019-04-20得票数 19

回答已采纳

2回答

可搜索PDF文件(Image+Text PDF)验证

、

我正在检查一个PDF文档是否是可搜索的，如果我能从PDF中的每一页中得到任何文本。但是，当我试图从包含500~2000页的PDF中提取文本时，检查每一页似乎要花费很长时间。PDF是否可能包含一个页面的文本，而不包含在其他页面中？我在这里要做的是，如果PDF

浏览 1提问于2009-05-06得票数 2

3回答

从pdf文件中提取矢量图像

、、、

linux上是否有命令行工具可以从pdf文件中提取图形，并将其保存为矢量格式？我知道pdfimage，但这会创建一个位图，而这不是我所需要的。

浏览 9提问于2012-03-28得票数 16

2回答

在c#中读取部分PDF文件

、、

我有许多大的PDF文件，我只需要阅读其中的一部分。我希望开始读取PDF文件，并将其写入另一个文件，如txt文件或任何其他类型的文件。但是，我想对我正在写入的文件的大小进行限制。当txt文件的大小约为15 MB时，我应该停止读取PDF文档，然后保留创建的txt文件。有人能帮我吗

浏览 2提问于2016-02-09得票数 1

回答已采纳

点击加载更多

ghostscript提取包含文本字符串的页面

从PDF格式的嵌套表中提取数据

Gtts库错误。我不知道为什么会发生这个错误，也不知道如何修复它们

如何使用Apache Tika获取PDF中元素的样式信息？

在PDF中链接文本的编程方法

如何在一个庞大的PDF中删除页面顶部不包含特定单词的页面？希望在C#