前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >十行python代码实现文件去重,去除重复文件的脚本

十行python代码实现文件去重,去除重复文件的脚本

原创
作者头像
Python学习者
修改2024-04-08 15:53:14
160
修改2024-04-08 15:53:14
举报
文章被收录于专栏:Python学习者Python学习者

1.导入依赖

代码语言:python
复制
'''导入依赖'''

from pathlib import Path

import filecmp

2.函数说明

代码语言:python
复制
filecmp.cmp(path1, path2, shallow=True)

path1/path2:待比较的两个文件路径。

shallow :默认为True,即只比较os.stat()获取的元数据(创建时间,大小等信息)是否相同,

设置为False的话,在对比文件的时候还要比较文件内容。

3.提取待去重文件路径

代码语言:python
复制
# 初始化文件路径列表
path_files_list = []

# 遍历
for path in Path(r'/usr/load/data').iterdir():

    # 校验是否为文件
    if path.is_file():
        # 加入到待去重文件列表
        path_files_list.append(path)

# 遍历待去重文件
for file_index in range(len(path_files_list) - 1):

    # 遍历,两辆比对
    for later in range(file_index + 1, len(path_files_list)):

        # 校验内容是否相同
        if filecmp.cmp(path_files_list[file_index], 
path_files_list[later], shallow=False):

            # 内容相同、则删除
            path_files_list[file_index].unlink()
            break

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.导入依赖
  • 2.函数说明
  • 3.提取待去重文件路径
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档