我正在尝试从PDF中提取文本,以便分析它,但是当我尝试从页面中提取文本时,我收到以下错误。
Traceback (most recent call last):
File "C:\Program Files (x86)\eclipse\plugins\org.python.pydev_2.7.4.2013051601\pysrc\pydevd_comm.py", line 765, in doIt
result = pydevd_vars.evaluateExpression(self.thread_id, self.frame_id, self.expression,
我正在尝试将pdf分成多个页面,并将每个页面另存为一个新的pdf。我尝试了上一个问题中的方法,但没有成功,也尝试了中的pypdf2拆分示例,但没有成功。编辑:我可以在我的文件中看到它成功地写入了第一页,然后创建了第二页pdf,但它是空的。
下面是我尝试运行的代码:
from PyPDF2 import PdfFileWriter, PdfFileReader
inputpdf = PdfFileReader(open("my_pdf.pdf", "rb"))
for i in range(inputpdf.numPages):
output = Pd
我目前正在使用PyPDF2处理Python中的PDF文件。
当我运行一个脚本来加载一些PDF文件并从PDF中提取一些关键词时,我无法:
PdfReadError: File has not been decrypted
因此,为了绕过这个问题,我实现了:
if pathObj.isEncrypted:
pathObj.decrypt('')
然而,我面对的却是:
NotImplementedError: only algorithm code 1 and 2 are supported
现在,我有点明白这些错误告诉我的是什么。我不明白的是我的PDF没有加密
有人
我一直在创建一个使用PyPdf2合并多个pdf文件的Python程序.
这是代码
import os
from PyPDF2 import PdfFileMerger
source_dir = os.getcwd()
merger = PdfFileMerger()
for item in os.listdir(source_dir):
if item.endswith('pdf'):
merger.append(item)
merger.write('completed_file.pdf')
merger.close()
在运行
我想把一个给定的PDF的页面分割成单独的PDF。
下面是我写的代码,但在这里,当使用open()和.write()函数保存文件时,我得到了错误: AssertionError
from PyPDF2 import PdfFileReader, PdfFileWriter
pdf = PdfFileReader("input.pdf") # this is the source pdf
for page in range(pdf.getNumPages()):
pdf_writer = PdfFileWriter()
pdf_writer.addPage(p
首先,我对使用Python和PyPDF非常陌生。我试图收集所有的字段在一个pdf收集成一个数据。最后,我想收集成千上万的PDF,它们都具有与基线相同的结构(表单),并将它们放入PDF中。在没有数字证书/签名的情况下,我能够让这些代码在PDF上工作得很好。但是,当我在PDF上运行带有数字证书/签名的代码时,会出现错误。
我真的不需要文档的数字签名/证书点,所以我认为最简单的方法就是跳过PDF字段。但是,我不知道如何做到这一点,因为PyPDF2包会查看每个字段。
代码:
import os
import PyPDF2 as pypdf
import pandas as pd
directory
我正在对从url下载的文件执行数据验证。其中一个验证检查涉及检查PDF的页数。使用PyPDF2包和PdfFileReader模块,直到我遇到一个具有权限密码但没有打开密码的256位AES加密的PDF。我无法访问任何密码,因为这些文件来自制造商网站,所以我的结论是,目前我只需检查PDF是否加密,如果是的话,暂时跳过它,但不管我是否试图检索页面计数或检查PDF是否加密,我都会得到以下错误:
DependencyError: PyCryptodome is required for AES algorithm
此错误发生在第6行if语句中。
尽管已经安装了pycryptodome并导入了AES模块,
我使用Python 3.6.5将PDF合并在一起,但遇到了一个问题。下面的代码引发一个'TypeError: 'NumberObject' object is not subscriptable'错误。我做错了什么?当我用merger.append注释掉这一行时,它会正确地打印出文件路径。
import webbrowser
import os
from PyPDF2 import PdfFileMerger, PdfFileReader
path = 'C:/test/pdfs'
merger = PdfFileMerger()
for pd
我一直在用Python创建一个程序,将2个pdf文件合并到一个文件中。这是代码:-
import os
from PyPDF2 import PdfFileMerger
source_dir = os.getcwd()
merger = PdfFileMerger()
for item in os.listdir(source_dir):
if item.endswith('pdf'):
merger.append(item)
merger.write('completed_file.pdf')
merger.close()
在运
代码是
from PyPDF2 import PdfFileReader
with open('HTTP_Book.pdf','rb') as file:
pdf=PdfFileReader(file)
pagedd=pdf.getPage(0)
print(pagedd.extractText())
此代码引发下面所示的错误:
TypeError: ord() expected string of length 1, but int found
我在网上搜索,发现了这个,但没有多大帮助。我知道这个错误的背景是什么,但不确定它在这里有什么
首先,我使用的是Python3.5.1 (32位版本),我编写了以下程序,使用PyPDF2和reportlab在我的pdf文件的所有页面上添加页码:
#import modules
from os import listdir
from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import A4
#initial values of variable declarations
PDFlist=[]
X
这是我的第一个python代码。作者传递了一个错误。这似乎是随机发生在循环过程中,通过pdf的。
try: except: pass将无法工作,因为它只会跳过该问题的文件,而不会为它生成一个输出。
strict=False似乎不适合作者。
错误:
PdfReadWarning: Multiple definitions in dictionary at byte 0x6eb54 for key /PageMode [generic.py:587]
PdfReadWarning: Multiple definitions in dictionary at byte 0x75740 for key
我需要编写将图像转换为pdfs并将tchem合并为一个的脚本。
我尝试过使用img2pdf和PYPDF2,但是我遇到了错误。谁能看看,告诉我我做错了什么。
import img2pdf
import os
from PyPDF2 import PdfFileReader, PdfFileMerger, PdfFileWriter
merger = PdfFileMerger()
path = input()
for root,dir,files in os.walk(path):
for eachfile in files:
if "pdf&
我正在尝试制作一个python程序,它循环遍历文件夹中的所有文件,选择那些扩展名为'.pdf‘的文件,并使用受限权限对它们进行加密。我使用的是这个版本的PyPDF2库:https://github.com/vchatterji/PyPDF2。(对原始PyPDF2的修改也允许设置权限)。我已经用一个pdf文件测试了它,它工作得很好。我希望原始的pdf文件应该被删除,加密的文件应该保留相同的名称。下面是我的代码: import os
import PyPDF2
directory = './'
for filename in os.listdir(directory)
我为这个问题搜索了很多次,但我没有找到这个问题的确切解决方案,这就是为什么我要问这个问题……
这是我使用PyPDF2在python中合并两个pdf文件的代码:
import os
from PyPDF2 import PdfFileReader, PdfFileMerger
files_dir = "/Users/ajayvictor/"
pdf_files = [f for f in os.listdir(files_dir) if f.endswith("pdf")]
merger = PdfFileMerger()
for filename in pd
从PDF文件中获取元数据的最佳模块或简单脚本是什么?对于python2.7,一切看起来都是这样,否则模块就不能工作了。我需要它才能让python 3.4.2工作。
https://pypi.python.org/pypi/pdfminer/ = Python 2.7
使用PyPDF2:
使用:print(input1.getDocumentInfo()),我不断地收到错误:
raise utils.PdfReadError("file has not been decrypted")
PyPDF2.utils.PdfReadError: file has not been de
我只是想用python合并一些PDF文件,更具体地说是PyPDF2。很简单,但由于某些原因,我得到了一个错误,这是根本不理解的。
在寻找解决方案的过程中,我发现其他人也有这个问题。然而,我没有满意的解决方案张贴出来。
我的合并文件代码:
from PyPDF2 import PdfFileMerger
def merge(self, work_files, destination_file):
pdf_merger = PdfFileMerger()
for pdf in work_files:
pdf_merger.append(pdf)
我与python有一个问题,在获得一个基于网络的pdf文件到python。下面是我写的代码
import PyPDF2
import pandas as pd
from PyPDF2 import PdfReader
reader = PdfReader(r"http://www.meteo.gov.lk/images/mergepdf/20221004MERGED.pdf")
text = ""
for page in reader.pages:
text += page.extract_text() + "\n"
这给了我一个错误
O
当我尝试读取PDF文件时,出现以下错误。
代码:
from PyPDF2 import PdfFileReader
import os
os.chdir("Path to dir")
pdf_document = 'sample.pdf'
pdf = PdfFileReader(pdf_document,'rb') #Error here
错误:
Traceback (most recent call last):
File "/home/krishna/PycharmProjects/sample/sample.py", l
我一直在学习Python PyPDF2,这是geeksabieks.org上的代码
# importing required modules
import PyPDF2
# creating a pdf file object
pdfFileObj = open('English.pdf', 'rb')
# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# printing number of pages in pdf file
print(pdfRead
我有成千上万的PDF文件,像。
我正在尝试使用PyPDF2将它们转换为纯文本(代码如下)。但PyPDF2显然只“看到”水印,而不是内容本身。我能在这里做些什么?
import os
import PyPDF2
path_to_pdfs = '/path/to/pdf/files/'
for filename in os.listdir(path_to_pdfs):
if '.pdf' in filename.lower():
with open(path_to_pdfs + filename, mode = 'rb')