我的电脑里有数千个PDF文件,名字从a0001.pdf到a3621.pdf,每个文件里面都有一个标题;例如,a0001.pdf中的“碳酸铝”,a0002.pdf中的“硝酸铝”等等,我想提取这些文件来重命名我的文件。
我使用这个程序重命名一个文件:
path=r"C:\Users\YANN\Desktop\..."
old='string 1'
new='string 2'
def rename(path,old,new):
for f in os.listdir(path):
os.rename(os.path.join(path, f), os.path.join(path, f.replace(old, new)))
rename(path,old,new)我想知道是否有/是否有解决方案来提取嵌入在PDF文件中的标题来重命名该文件?
发布于 2017-06-29 15:09:37
安装软件包
这不能用普通的Python解决。您将需要一个外部包,如pdfrw,它允许您读取PDF元数据。使用标准的package pip安装相当简单。
在上,首先要确保使用pip命令获得了最新版本的pip:
python -m pip install -U pip在Linux上
pip install -U pip在这两个平台上,然后使用
pip install pdfrw密码
我结合了zeebonk和user2125722的分析来编写一些非常紧凑和可读的东西,这与您的原始代码非常接近:
import os
from pdfrw import PdfReader
path = r'C:\Users\YANN\Desktop'
def renameFileToPDFTitle(path, fileName):
fullName = os.path.join(path, fileName)
# Extract pdf title from pdf file
newName = PdfReader(fullName).Info.Title
# Remove surrounding brackets that some pdf titles have
newName = newName.strip('()') + '.pdf'
newFullName = os.path.join(path, newName)
os.rename(fullName, newFullName)
for fileName in os.listdir(path):
# Rename only pdf files
fullName = os.path.join(path, fileName)
if (not os.path.isfile(fullName) or fileName[-4:] != '.pdf'):
continue
renameFileToPDFTitle(path, fileName)发布于 2017-06-24 19:21:02
您需要的是一个能够真正读取PDF文件的库。例如,帕德夫
In [8]: from pdfrw import PdfReader
In [9]: reader = PdfReader('example.pdf')
In [10]: reader.Info.Title
Out[10]: 'Example PDF document'发布于 2017-06-29 10:59:45
您可以使用pdfminer库来解析PDF。info属性包含PDF的标题。下面是示例信息的样子:
[{'CreationDate': "D:20170110095753+05'30'", 'Producer': 'PDF-XChange Printer `V6 (6.0 build 317.1) [Windows 10 Enterprise x64 (Build 10586)]', 'Creator': 'PDF-XChange Office Addin', 'Title': 'Python Basics'}]`然后,我们可以使用字典的属性提取标题。下面是整个代码(包括迭代所有文件并重命名它们):
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
import os
start = "0000"
def convert(var):
while len(var) < 4:
var = "0" + var
return var
for i in range(1,3622):
var = str(i)
var = convert(var)
file_name = "a" + var + ".pdf"
fp = open(file_name, 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
fp.close()
metadata = doc.info # The "Info" metadata
print metadata
metadata = metadata[0]
for x in metadata:
if x == "Title":
new_name = metadata[x] + ".pdf"
os.rename(file_name,new_name)https://stackoverflow.com/questions/44598758
复制相似问题