首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python代码解压的中文文件名是乱码,怎么解决?

红豆生南国,春来发几枝。

大家好,我是Python进阶者。

一、前言

前几天在Python白银交流群【fashjon】问了一个Python自动化办公的问题,问题如下:

import zipfile

def unzip_file(zip_file_path, output_folder_path):

with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:

zip_ref.extractall(output_folder_path)

# 使用示例

zip_file_path = 'example.zip'

output_folder_path = 'output_folder'

unzip_file(zip_file_path, output_folder_path)

以上代码解压的中文文件名是乱码,怎么解决?

二、实现过程

这里【瑜亮老师】给了个思路如下:乱码是什么样子的?最好能传上来一个压缩包,我们好试验。

过了几分钟,【瑜亮老师】补充道:@fashjon 我查看了一下zipfile的源码,发现是使用了'cp437'编码了文件名才导致的文件名错误。既然知道了错误的编码,那么方法就很简单了,1修改源码,2自己写代码读取解压缩路径中的文件名,重新使用'cp437'编码然后用gbk解码,重命名文件名,问题解决。修改后的代码如下:

import zipfile

import os

def unzip_file(zip_file_path, output_folder_path, encoding='gbk'):

with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:

zip_ref.extractall(output_folder_path)

# 遍历解压后的目录,检查并修正文件名

for root, dirs, files in os.walk(output_folder_path):

for bad_name in files:

# 假设这里我们知道ZIP文件使用的是'gbk'编码(但实际情况可能不同)

if not bad_name.isascii():  # 如果文件名包含非ASCII字符

true_name = bad_name.encode('cp437').decode(encoding)

os.rename(os.path.join(root, bad_name), os.path.join(root, true_name))

# 使用示例

zip_file_path = 'example.zip'

output_folder_path = 'output_folder'

unzip_file(zip_file_path, output_folder_path)

不确定你的电脑里是否安装pathlib,因此使用了os,顺利地解决了粉丝的疑问。

粉丝追问:解压文件用什么库比较好?

回答1:这方面我只知道zipfile和代码调用winrar。平时很少接触匹量处理压缩包。

回答2:批量处理压缩包,直接wps批量解压就可以了;

回答3:何须wps,只要电脑上装的有任意解压软件,全选压缩包,右键,可以解压到一个文件夹,也可以每个压缩包单独生成一个文件夹。代码只不过方便遍历多层文件夹目录,如果都在一个文件夹中,还不如右键点选更方便。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFdCQFPlnHsq_A3ZgKrCvtWg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券