如何从PDF中读取条件文本？

文章/答案/技术大牛

发布

1回答

、、、、

我想阅读PDF中的特定部分。这怎么可能呢？比如:如果你访问URl:假设我只想获取第一部分的数据。URL url = new URL("https://www.uscis.gov/sites/default/files/files/form/i-129.pdf"); InputStream

浏览 6提问于2019-08-25得票数 0

3回答

C#如何从PDF页面url获取PDF文本

、、、、

C#如何从PDF页面url获取pdf文本例如，网页包含PDF文本，我想读取该页面中的所有文本

浏览 1提问于2016-08-22得票数 1

1回答

使用Objective-C从URL读取托管的PDF文件并转换为iOS中的文本

、、

我正在读取本地存储的PDF文件(使用nsbundle)并将其转换为文本。但是当我试图从http，即URL方案读取PDF，并给出我的PDF到文本转换的路径时，它返回nil。任何解决方案都将不胜感激。我的基本问题是如何从URL路径读取PDF文件？

浏览 0提问于2016-01-21得票数 1

2回答

iText在安卓系统上的文本提取/阅读

、、

其他人说iText只用于创建PDF？而且它不能从PDF中读取或提取文本。这是真的吗？如果这是真的，那么我还可以选择哪些其他选项来从PDF文件中提取文本并将其保存在变量中或显示在Android设备中？如果iText能够从PDF中提取文本，那么如何提取呢？

浏览 0提问于2012-10-22得票数 2

回答已采纳

1回答

我如何阅读python的pdf？

、、、

我如何在python中读取pdf ?我知道一种将它转换为文本的方法，但是我想直接从pdf中读取内容。有人能解释一下python中哪个模块最适合pdf提取吗？

浏览 2提问于2017-08-21得票数 45

2回答

文本提取库不返回非空页的文本。

、

我编写了一个从PDF文档中提取文本的程序。但一份PDF文件给了我空的短信。我可以在Acrobat中打开PDF文件，它可以正常工作。我的代码可以很好地处理其他PDF文件，所以我想知道是什么导致了这个问题。我用了PyPDF2和PyPDF2，但结果是一样的。所以这个文件一定有问题： from PyPDF2 import PdfReader for page

浏览 12提问于2022-06-27得票数 0

2回答

在java中将PDF数据转换为excelsheet

我需要转换成java.is格式的文件Excelshet有没有可用的thridy党，自由或应用编程接口在java？

浏览 0提问于2012-03-19得票数 0

回答已采纳

1回答

是否可以使用java FileReader从pdf中读取文本，或者使用java的替代方法？

、

更普遍地说，发现java是否可以从pdf文件中解释文本是很有用的。谷歌在上面没有提到任何东西，所以我想也许不是？如果没有，为什么？

浏览 5提问于2013-01-13得票数 0

2回答

现在的问题是，有标记PDF，显示你的PDF的“结构”。在我的例子中，我有一个标记PDF，其中每个人的值都有自己的行，每个人都在一列中。这意味着有/应该有一种简单的方法来解析PDF中的“表”来获取每个人的价值，对吗？所以我的问题是:当有标记的PDF有一个结构时，我如何才能从中受益，这样我就可以读取我所需要的所有值？(另一个小问题是: PDF到Excel应用程序是否使用PDF</em

浏览 1提问于2017-02-17得票数 1

2回答

如何读取R中带有分页字符的文本文件

、、、

我在一个文件夹中没有几个文本(.txt)文件，这些文件都是从PDF格式转换而来的，其中包含了分页字符(#12)。我需要通过在R中读取这些文本文件来生成一个数据框架，条件是R中的一行表示一个PDF页面。问题是，当文本文件加载到R中时，每一行新行都变成了新行，我不想这样做。请帮我解决这个问题。谢谢! 我尝试过的一些方法是read.table和readLines。

浏览 15提问于2022-11-26得票数 1

回答已采纳

1回答

.NET库，用于将文档扫描到可搜索的PDF(带有条形码支持)

、、

我需要开发一个应用程序，可以扫描文档并生成可搜索的PDF，可以从桌面应用程序(例如WPF)或web浏览器预览。还可以从扫描的文档中扫描条形码。要求：生成可搜索的PDF (OCR) 从扫描文件中扫描条形码。从我所做的小研究来看，我似乎可以用下面的方法来实现这一点，但这似乎是一项很大的工作：用于扫描文档的Windows图像采集(WIA

浏览 0提问于2020-02-03得票数 1

2回答

如何使用python访问pdf表单中的数据？

、、

我需要访问数据从pdf表单字段。我用以下代码尝试了包PyPDF2：print(reader.pages[0].extract_text()) 但是这只给了我普通pdf数据的文本，而不是表单字段。有人知道如何从表单字段中读取文本吗？

浏览 0提问于2017-09-08得票数 1

回答已采纳

2回答

Perl CAM::PDF不接受文件名变量

、

我使用了CAM::PDF模块从PDF文件中读取文本内容。在一个目录中，我有一个PDF文件列表，所以我使用了下面这样的代码来读取文本内容，它没有给我$text变量中的文本。$filename;my $text = $pdf->getPageTex

浏览 5提问于2014-04-04得票数 0

1回答

添加文本水印

、、、

我已经学会了如何在pdf文件中添加水印。addwatermark" image="NoteToSelf.png" position="0,0" source="my.pdf" overwrite="

浏览 5提问于2010-06-25得票数 2

回答已采纳

2回答

使用Itext从pdf中提取图像

、

我一直使用ITEXT函数从pdf文件中读取简单的文本，但是否可以在C#中使用ITEXT从PDF文件中读取图像？

浏览 0提问于2011-10-22得票数 1

回答已采纳

2回答

PHP文件处理中的面向对象概念

我想从文本文件中读取内容，并使用PHP面向对象将其下载到pdf文件中。如何从文件中读取内容，是否与简单的PHP相同？

浏览 1提问于2009-09-30得票数 0

回答已采纳

2回答

在c#中读取部分PDF文件

、、

我有许多大的PDF文件，我只需要阅读其中的一部分。我希望开始读取PDF文件，并将其写入另一个文件，如txt文件或任何其他类型的文件。但是，我想对我正在写入的文件的大小进行限制。当txt文件的大小约为15 MB时，我应该停止读取PDF文档，然后保留创建的txt文件。有人能帮我吗?我怎么能在C#里做到这一点？using (StreamReader sr = new StreamReader(@"F:\1

浏览 2提问于2016-02-09得票数 1

回答已采纳

1回答

阅读PDF* to UI中可编辑字段的文本*

、、

在我的网站上，客户端将上传包含可编辑字段的不同类型的PDF模板。我想从PDF中读取文本和可编辑字段，并在我的web表单中显示文本和相应的字段。我已经找到了分别读取文本和字段的解决方案，但我无法将字段映射到相应的文本。使用itextsharp读取文本和获取字段，但不能映射该文本和字段。对于ex：，在pdf中它被指定为FirstN

浏览 0提问于2013-08-29得票数 0

4回答

从.PDF文件中提取数据

、

我需要从.PDF文件中提取数据并将其加载到SQL2008中。谁能告诉我该怎么做？？

浏览 0提问于2011-01-25得票数 25

点击加载更多