在Python中从PDF中提取单词列表

文章/答案/技术大牛

发布

3回答

、、、

我正在尝试以列表的形式提取PDF中的单词。我可以从PDF中提取文本，但不能将其放入列表中 import PyPDF2PDFfilename = '1200.pdf' pdfFileObj = open

浏览 14提问于2019-06-26得票数 0

2回答

从pdfs和文档中提取文本和元数据

、

我想知道如何从文档such as bold text or big titles中提取文本和相关元数据的方法。那么，我如何从文件中提取所需的数据呢？

浏览 11提问于2020-10-22得票数 0

回答已采纳

4回答

PDF -将单个单词拆分为单独的行- Python 3

、、、

我正在尝试将PDF中的单词提取到单独的行中，但只能对文本文件执行此操作，如下所示。此外，规则是我不能将PDF文件转换为TXT，然后执行此操作。必须对PDF文件执行此操作。我也需要对可搜索的PDF文件做同样的事情。任何帮助都将不胜感激。

浏览 66提问于2019-12-06得票数 0

回答已采纳

1回答

使用python显示docx文件的内容

、

我想在docx中显示数据。但是我下面的代码是提取文本和打印it.Can，有人建议我怎么做呢？encode('ascii', 'ignore').decode('ascii') 我需要显示数据，因为它是在docx在这里，我的表中的文本正在显示，但没有显示表。这里能做些什么？

浏览 2提问于2019-09-23得票数 1

3回答

Python:当从pdf中提取文本时，如何解决合并的单词？

、、、、

我正在努力从一组pdf文件中提取单词。这些文件是我从网上下载的学术论文。import PyPDF2 as pdf#I)

浏览 17提问于2022-03-16得票数 0

回答已采纳

1回答

python pypdf来读取pdf并获得突出显示的单词

、、

如何使用python pypdf来读取pdf并获得高亮显示的单词？我在pdf中突出显示了未登录的单词，我想将它们提取出来供以后参考。

浏览 2提问于2011-05-16得票数 0

回答已采纳

1回答

使用pdftotext后:从txt中查找字符串页面

、

我目前正在用python编码，并设法使用pdftotext从pdf中提取文本。但是，在找到单词的位置后，我希望能够参考最初的pdf。详细来说，我感兴趣的是页面，甚至

浏览 0提问于2016-07-21得票数 1

1回答

将PDF文档中的文本提取为单独的新文件名文档

、、、

我有大量的PDF文件(>2k文件)，它们看起来类似于这个(PDF样本图像)提取将类似于以下内容：samplepdf_B.pdf -缩进B中的文本(前

浏览 0提问于2022-05-09得票数 1

回答已采纳

2回答

提取LTFigure对象后面的文本

、、

我正在使用python pdfminer库(参见docs)从pdf文件中提取文本。然而，pdfminer似乎无法提取某些文件中的所有文本，而是提取LTFigure对象。假设从这个对象的位置，它“覆盖”了一些文本，因此这个文本没有被提取出来。pdf文件和包含从pdf提取信息的代码的简短jupyter笔记本都在我专门创建的Github存储库中，目的是提出这个问题：

浏览 149提问于2021-01-28得票数 0

回答已采纳

1回答

将pdfminer bbox坐标转换为iOS屏幕

、、

我在swift中做了一个iPad应用程序项目，我需要提取pdf word bbox坐标并将其转换为iPad屏幕坐标。这样做的目的是我能够检测到一个单词何时被触摸。我使用webview来显示pdf，并且使用python中的pdfminer库来提取单词bboxes (我提取字符bboxes，我可以通过分隔单词之间的空格来获取单词)。

浏览 40提问于2016-09-23得票数 0

回答已采纳

3回答

用于读取PDF文件的Python

、

我发现很多帖子都提出了阅读PDF的解决方案。我想一个字一个字地阅读PDF文件，并对它做一些处理。人们推荐pdfMiner，它可以将整个PDF文件转换成文本文件。但我想要的是一个字一个字地读PDF。

浏览 2提问于2011-05-10得票数 11

回答已采纳

3回答

从pdf文件中获取数据

、

我有一张pdf文件中的表格。有x，y，z列。我只想要x列。有可能使用python吗？如果是，怎么做？然后我想要画x和y。我该怎么做(使用表中的数据)

浏览 23提问于2022-04-14得票数 -1

1回答

如何将索引与nltk.corpus中的单词结合使用？

、

如果我想从words.words()获得第1252个单词，我会怎么做？我当然可以做这样的事，但它太丑了，我几乎看不见它。

浏览 5提问于2016-08-18得票数 0

回答已采纳

2回答

如何在android中解析PDF文件？

、、、

此应用程序允许用户突出显示PDF文件中的单词。然后必须提取这些单词，那么我如何解析PDF文件才能在没有任何库的情况下从文件中获取提取的单词？有人能帮我吗？

浏览 5提问于2014-03-09得票数 0

回答已采纳

1回答

使用带有重复结尾词的regex提取字符串的区段

、

我正在尝试使用python中的re模块提取一些原始字符串。要提取的部分的末尾由一个重复单词(重复多次)标识，当前的工作总是捕获重复单词的最后匹配。我如何才能改变这种行为？从pdf中提取了一个文本文件。整个PDF存储为一个字符串。字符串的一般格式如下：要捕获的字符串是：“字母数字单词</e

浏览 0提问于2019-04-13得票数 0

回答已采纳

1回答

如何在PyPDF2中增加对空格的容忍度？

、、、

我正在寻找最简单的方法来转换PDF到Python中的纯文本。PyPDF2看起来很简单，下面是我所拥有的：import PyPDF2for page in pdf.pages:但它给了我： InChapter5wepresentandevaluateourresu

浏览 0提问于2014-02-10得票数 0

3回答

如何计算给定PDF中给定单词的数量？

面试问题问题的措辞如下：如何在PDF中获得给定单词的实例计数。答案不一定是编程、平台或特定工具。

浏览 0提问于2012-01-24得票数 5

回答已采纳

3回答

在Python中阅读PDF包？

、、

我有一个pdf组合，这是由一个电子邮件线程，每个电子邮件包含附件。我想阅读每封电子邮件的文本，并提取附件。但是，我找不到关于如何在python中阅读pdf包的信息。我尝试过使用库PDFMiner和textract，但输出结果只是这样：“为了获得最佳体验，请在Acrobat X或Adobe Reader X或更高版本中打开此PDF包。

浏览 0提问于2017-01-12得票数 0

1回答

Azure机器学习无法将PDF作为web服务的输入

、

我在azure ML上部署了一个随机的森林实验，我试图根据文档包含的单词对文档进行评分。这些文档是PDF格式的。当我将这个实验部署为web服务时，它不允许我输入PDF。有没有一种方法可以将PDF输入到web服务？

浏览 0提问于2017-02-06得票数 1

1回答

R-迭代PDF中的页面

、、

我有一系列包含各种数据表的PDF文件。我只在每个文件中寻找一个特定的表，我的目标是找到每个文件在哪个页面上。我一直在研究PDFTools，但看起来没有一种方法可以遍历页面。任何帮助都将不胜感激！

浏览 4提问于2017-01-19得票数 0

回答已采纳

点击加载更多