如何在python中返回从多个PDF中提取的所有文本？_如何使用Python从PDF中的特定区域提取文本？_从PDF中提取文本在R中返回奇怪的结果 - 腾讯云开发者社区

python、pdf、machine-learning、nlp、pdf-scraping

这是我的代码。到目前为止，它将把pdfs的所有内容打印到pages变量。但是，我似乎不能返回相同的提取文本。我一直在测试它，从随机的pdf中提取信息，并将其放入我调用的文件夹中。如何让它以相同的打印方式返回提取的文本？import os import PyPDF2 as <e

浏览 14提问于2020-07-19得票数 0

回答已采纳

1回答

在python中是否有一种方法只提取核心文本(没有框、页脚等)。从pdf里？

python、text、text-mining、text-extraction、pdfplumber

我只想从一个“富”pdf文档中提取核心文本，这意味着它有很多我不感兴趣的表格、图表、框、页脚等等。我尝试使用一些常见的python包，如PyPDF2、pdfplumber或pdfreader.The，显然它们提取了pdf中所有的文本，包括上面列出的那些我不感兴趣的部分。PyPDF2 import PdfReaderp

浏览 11提问于2022-11-07得票数 -1

回答已采纳

1回答

我如何阅读python的pdf？

python、python-2.7、pdf、text-extraction

我如何在python中读取pdf ?我知道一种将它转换为文本的方法，但是我想直接从pdf中读取内容。有人能解释一下python中哪个模块最适合pdf提取吗？

浏览 2提问于2017-08-21得票数 45

2回答

使用java从pdf中识别和提取表格

pdf、itext、pdfbox、java

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。

浏览 12提问于2017-03-31得票数 1

2回答

根据内容删除特定的PDF页面

pdf

我有超过50,000 PDF文件，需要分配到客户帐户。但是，每个PDF包含的页面我不希望客户看到(内部公司的东西)，所以我希望能够删除特定的网页，根据其内容(“仅供办公室使用”出现在页面上)，并将PDF作为一个新的文件。我对脚本方面很满意，我只需要知道什么样的软件能够完成这样的任务。

浏览 0提问于2016-10-25得票数 1

2回答

安装用于PDF文本提取的弹出器

python、pdftotext、poppler

我试图跟随这个博客，尝试从发票pdf文件中提取文本。我的文本提取需要提取发票的特定字段。我不确定如何使用这个.tar文件来解压包并在Python中使用它。任何建议，我

浏览 24提问于2020-04-24得票数 2

5回答

使用python从MS word docx文件中逐页提取文本

python、python-3.x、document、extraction、text-extraction

我有一个MS文件，我需要从其中提取文本分页。我尝试过python，但它可以提取整个文本，但不能提取页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后，docx的页面结构发生了变化。例如，在转换时，字体大小被更改，而docx的一页中的文本内容在pdf中占用了多个页面。我正在

浏览 9提问于2019-12-18得票数 4

回答已采纳

1回答

根据pdf_reference_1-7，ToUnicode CMap比编码有更大的优先级，但是这里有一个相反的文件，我该怎么办？

pdf、pdfminer

BaseEncoding: WinAnsiEncoding根据ToUnicode CMap，CID 31被映射到'3‘，这是错误的。

浏览 1提问于2019-07-01得票数 1

回答已采纳

1回答

按主题提取PDF文本

python、pdf

我试着按主题从PDF中提取课文。为了做到这一点，我试图识别PDF中的标签\标题。如果有人知道如何克服这个问题，我会很高兴，这样就可以不依赖PDF (我使用的大多数PDF文件是文章\书籍)而提取标签(按主题分类)--按主题提取文本的不同方法也很受欢迎。(如标记所示，我正试图用Python进行此操作)现在我做了两件事：

浏览 1提问于2016-04-03得票数 0

1回答

同时在多个文件上运行ipynb脚本/整个目录？

python、pdf、subprocess

\PDFs读取单个PDF，提取上述PDF的文本，然后通过剪接将感兴趣的文本放入它创建的CSV文件中。问题是，我想在数百个PDF上执行这个脚本( ipynb脚本本身在单个PDF上执行时工作得很好，我只是不想继续手动更改Notebook/Python脚本中的文件名)。/导入文件夹中的所有

浏览 5提问于2021-01-25得票数 1

回答已采纳

3回答

将PDF转换为.ipynb (从PDF中恢复木星笔记本)

python、pdf、jupyter-notebook

我有一个PDF文件是从木星笔记本创建的，但是原始的.ipynb文件丢失了。有什么工具可以帮助将PDF转换成.ipynb吗？

浏览 2提问于2020-06-24得票数 0

8回答

如何在Perl中从PDF文件中提取文本？

perl、pdf、text、extract

我正在尝试使用Perl从PDF文件中提取文本。我一直在命令行中使用pdftotext.exe (即使用Perl函数)从system文件中提取文本，这种方法工作得很好。问题是我们有像α，β和其他特殊字符中的符号，这些符号不会显示在生成的txt文件中。此外，在文本中随机添加的额外空格也很少。有没有一种更好、更可靠的方法来从<

浏览 11提问于2009-07-16得票数 23

5回答

使用pdfminer.six从pdf文件中提取文本时出错

python、pdf、windows-10、pdfminer

我正在尝试使用pdfminer.six库(如)从pdf中提取文本，我已经在我的虚拟环境中安装了它。')我怀疑这与Python有关，因为我在我的虚拟环境中安装了pdfminer，但我在我的系统python</em

浏览 12提问于2020-11-09得票数 2

4回答

PDF -将单个单词拆分为单独的行- Python 3

python、pdf、text、pdfminer

我正在尝试将PDF中的单词提取到单独的行中，但只能对文本文件执行此操作，如下所示。此外，规则是我不能将PDF文件转换为TXT，然后执行此操作。必须对PDF文件执行此操作。，则此函数返回： Hello World! 我也需要对可搜索的PDF文件做同样的事情。任何帮助都将不胜感激。

浏览 66提问于2019-12-06得票数 0

回答已采纳

1回答

pymupdf、pdfplumber、grobid

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从

浏览 20提问于2022-06-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云