使用PyPDF2提取文本时的编码问题

PyPDF2是一个用于处理PDF文件的Python库。在使用PyPDF2提取文本时，可能会遇到编码问题。这是因为PDF文件中的文本可能使用了不同的编码方式，如UTF-8、GBK等。

为了解决这个问题，可以使用Python的chardet库来自动检测文本的编码。下面是一个示例代码：

import PyPDF2
import chardet

def extract_text_from_pdf(file_path):
    with open(file_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        text = ''
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text += page.extract_text()
        
        # 检测文本编码
        encoding = chardet.detect(text.encode())['encoding']
        if encoding:
            text = text.decode(encoding)
        
        return text

在上面的代码中，我们首先使用PyPDF2库打开PDF文件，并逐页提取文本。然后，使用chardet库检测文本的编码，并进行解码。

PyPDF2提供了一些其他功能，如合并PDF文件、提取PDF中的图片等。如果您对PyPDF2库的更多功能感兴趣，可以参考腾讯云的PyPDF2产品介绍链接：PyPDF2产品介绍。

总结：使用PyPDF2提取文本时的编码问题可以通过使用chardet库来自动检测文本的编码，并进行解码。

使用PyPDF2提取文本时的编码问题

python、pdf、text-extraction、pypdf2

我正在使用PyPDF2从pdf文件中提取文本。它可以工作，但它不能理解重音字符。下面是我的代码：pdfFileObj = open(filename,'rb'= "":这是我得到的结果： 82 %G’nes dues au bruitEurop”ens expos”s ‹

浏览 18提问于2021-02-16得票数 0

1回答

使用pypdf2从pdf文件中提取文本

python、pdf、extraction、pypdf2、skia

尝试使用python(v3.8.2)模块pypdf2(v1.26.0)从pdf文件/s中提取文本。所有的好，除了与特定的pdf文件/s(产生的铬打印选项)。在使用chrome的print选项生成/下载的期间，我有这些文件，其中有一个选项可以将页面/文档保存为pdf。我无法从这些pdf文件中提取文本，因为代码只返回‘’(空)，其他pdf文件没有问题</e

浏览 4提问于2020-05-13得票数 0

回答已采纳

1回答

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

python、pdf、text、data-conversion

我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的，所以在处理PDF文本之前，它似乎是用'utf-8‘编码的。但是，无论是使用"open“功能读取PDF文件，还是使用"codecs”功能读取PDF文件，似乎都无法正确提取‘utf-8’编码的文本。你有什么想法可以使用Pyth

浏览 0提问于2018-12-17得票数 1

1回答

PyPDF2无法读取非英语字符，在extractText()上返回空字符串

python、python-3.x、pdf、web-scraping、pypdf2

我正在编写一个脚本，该脚本将从一个大型PDF文件(40-60多页)中提取中的数据，不是英文，但该文件包含希腊语字符，在我运行PyPDF2的extractText()函数获取页面内容之前，这一切看起来都很好我是这个图书馆的新手，我不知道该怎么做，来解决这个问题！！

浏览 2提问于2020-02-24得票数 3

回答已采纳

4回答

Python 3.4中从PDF中提取文本的最佳工具

python-3.x、pdf

我使用的是Python 3.4，需要从PDF中提取所有文本，然后使用它进行文本处理。我需要一些Python 3.4的东西。邦森

浏览 56提问于2015-09-19得票数 44

回答已采纳

2回答

用Python提取PDF文件的文本和表

python、pdf、ocr、pypdf2、pdfplumber

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。一种解决方案是使用Azure表单识别器布局模型，但是当我们有文本和表的混合时，它就失败了，特别是当表是某种文本格式并且它们将表和文本的内容混合在一起时(请参见Azure Form Recognizer代码) 首先，对于一些pdf文件，pypdf2<

浏览 8提问于2021-09-21得票数 1

2回答

在Python中从PDF文件中提取文本

python、pypdf2

我正在尝试从pdf文件中提取文本，这样我就可以将其自动化。例如，当使用PyPDF2时，它适用于我的简历，但不适用于我的工作文档。问题是，文本是这样的："Helloworldthisisthetext“。然后我尝试使用.join(“")，但这不起作用。我读到这是PyPDF2的一个众所周知的问题--这似乎取决于

浏览 0提问于2019-12-03得票数 0

2回答

Python -将pdf转换为文本，编码错误

python、pdf、text、encoding、error-handling

但是提取的文本像??챘#?遏?h첨챦_철?‾n?~w??¬?k一样奇怪，我怎么才能修复它呢？for page in pdf:我使用的是我尝试了另一种方式，使用pyPdf，如下所示import glob from pyPdf import

浏览 0提问于2015-03-15得票数 0

回答已采纳

1回答

如何使用Python从PDF中的特定区域提取文本？

python、python-2.7、pdf、pypdf2

我正在尝试使用Python从PDF中提取文本，并且我已经成功地使用了PyPDF2，如下所示：pdfFileObj = open('path', 'rb')pageObj = pdfReader.getPage(0)这将从页面中提取所有文本，但我只想从

浏览 13提问于2017-08-21得票数 9

1回答

哪种软件或API最适合从PDF中提取信息并保存到excel？

api、ocr、nlp

在我的项目中，有很多采购订单和销售订单的使用。所以，我必须手动输入数据。因此，是否有任何软件和API的项目，直接采取PDF和输出在excel，如公司名称，日期，金额等。请分享好的来源。谢谢和问候。

浏览 0提问于2019-05-21得票数 1

回答已采纳

1回答

当PDF包含图像和表格时，在python中从pdf中提取文本

python、pdf、text、extract、pypdf2

我正在尝试使用python从pdf中提取文本。我尝试使用PyPDF2，但似乎只有当pdf是简单的基本文本而不是其他内容时才起作用。是否还有其他方法可以帮助我从PDF中提取文本？

浏览 10提问于2020-03-16得票数 0

1回答

使用Pypdf2从网页转换成pdf格式的文本

python、pdf、data-extraction、pypdf2

我使用chrome将网页转换为Pdf，并使用了另存为pdf选项。现在的问题是，当我使用PyPDF2从其中提取数据时，它显示为空，而它很容易处理其他pdf文件。我知道我可以直接从网站提取数据，但我想知道为什么这不起作用。它显示了正确的页数，但是当我提取the ()时，它什么也没有显示。有人知道问题出在哪里吗？该页面的链接是。我把这个网页转换成了pdf。import

浏览 3提问于2020-03-13得票数 0

2回答

无法使用PyPDF2从PDF文件中获取文本。

python、pdf、pypdf2

我正在尝试从我用PyPDF下载的PDF文件中获取文本。下面是我的代码： PyPDF2.PdfFileReader('download.pdf\n˙˘˛\n˛\n/)M6;˝˛˙˘˛˘\n˛\n///˛\n\n' 当我打开文件时，它的内容是正常的。另外，当我使用另一个程序将

浏览 3提问于2018-10-11得票数 3

1回答

PyPDF2从扫描的pdf中提取垂直文本

python、python-3.x、pypdf2、pdfminer、pdf-extraction

我正在尝试提取文本从扫描的pdf使用PyPDF2。有些pdf包含垂直排列的文本。但页面的方向是肖像。是否有任何方法可以识别文本是否垂直对齐并使用pdfminer或PyPDF2读取PDF中的垂直行？

浏览 1提问于2018-09-27得票数 6

3回答

如何使用Python的PyPDF2库从PDF文件中删除水印

python、pdf

我编写了一个用Python和PyPDF2库从PDF文件中提取文本的代码。代码对大多数文档都很好，但有时它会返回一些奇怪的字符。我认为那是因为PDF在页面上有水印，所以它不识别文本：from io import StringIO, BytesIO def pdf_content_extractionwww.dielsdorf.ch/dl.php/de/5f867e8255980&

浏览 10提问于2021-03-08得票数 2

回答已采纳

11回答

如何在Python 3.7中从pdf中提取文本

python、pdf、python-3.7、pypdf2、pdf-extraction

我正在尝试使用Python从PDF文件中提取文本。我的主要目标是试图创建一个程序，读取银行对账单，并提取其文本，以更新excel文件，以方便地记录每月的支出。现在我只专注于从pdf文件中提取文本，但我不知道如何做到这一点。当前将PDF文件中的文本提取为字符串的最佳和最简单的方法是什么？现在最好使用的库是什么，

浏览 203提问于2019-04-20得票数 19

回答已采纳

2回答

在提取文本时排除PDF文件页的页眉和页脚内容？

python-3.x、pdf、text、nlp、pypdf2

在从contents of footers and headers of a page中提取文本时，是否可以将它从pdf文件中排除。因为这些内容最不重要而且几乎是多余的。注意:为了从.pdf文件中提取文本，我在python = 3.7上使用了PyPDF2包。import PyPDF2 def Rea

浏览 2提问于2018-08-27得票数 3

2回答

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

python、pdf、ocr、scraping、parser

我正在寻找维护良好和文档齐全的Python强大PDF解析库(主要用于从具有不同/不可预测结构的各种类型的PDF中提取和解析数据，包括借助可靠和强大的OCR)。)简略版: PyPDF4是一个彻底的突破，旨在做PyPDF2所做的事情，但在一个更可持续、更有商业价值的基础上。我们的</

浏览 0提问于2019-11-14得票数 4

回答已采纳

2回答

如何从pdf中获取文本，以便从同一文档中进一步进行基于问题回答的模型？

machine-learning、deep-learning、nlp、cnn、computer-vision

假设您有一个pdf文档，基本上是从硬拷贝扫描，现在有一组固定的问题要回答从文件本身。举个例子，一份文件包含了一份土地合同，现在一组固定的问题是“谁是卖方？”“资产的价格是什么？"，文件提到这个答案可能有2-3次，作为一个人，这是一个简单的任务。如何实现自动化？

浏览 0提问于2018-10-06得票数 3

2回答

尝试从PDF中提取时，‘'Nonetype is not itreable’

python、nonetype、pdf-parsing、pdf-extraction

我试图提取数据从一个PDF，但我一直得到一个类型错误，因为我的对象是不可迭代的(在语句for line in text:上，但我不明白为什么' text‘没有值，就在上面我创建的文本对象使用text =page.extract.text()，然后我想迭代通过每一行文本，以查找匹配我的正则表达式。我担心我的语句行是问题所在；也许使用‘for line in text:’是不合适的</

浏览 4提问于2021-01-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用PyPDF2提取文本时的编码问题

相关·内容

使用PyPDF2提取文本时的编码问题

使用pypdf2从pdf文件中提取文本

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

PyPDF2无法读取非英语字符，在extractText()上返回空字符串

Python 3.4中从PDF中提取文本的最佳工具

用Python提取PDF文件的文本和表

在Python中从PDF文件中提取文本

Python -将pdf转换为文本，编码错误

如何使用Python从PDF中的特定区域提取文本？

哪种软件或API最适合从PDF中提取信息并保存到excel？

当PDF包含图像和表格时，在python中从pdf中提取文本

使用Pypdf2从网页转换成pdf格式的文本

无法使用PyPDF2从PDF文件中获取文本。

PyPDF2从扫描的pdf中提取垂直文本

如何使用Python的PyPDF2库从PDF文件中删除水印

如何在Python 3.7中从pdf中提取文本

在提取文本时排除PDF文件页的页眉和页脚内容？

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

如何从pdf中获取文本，以便从同一文档中进一步进行基于问题回答的模型？

尝试从PDF中提取时，‘'Nonetype is not itreable’

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐