Python 三种遍历目录的方法,轻松帮你找出隐藏文件

阅读文本大概需要 6 分钟。

无论在 Windows 系统中还是 Linux 系统中,都存在着隐藏文件以及隐藏文件夹。隐藏文件夹一般是系统关键性目录,例如 Windows 系统中的 C 盘中的 Boot 文件夹Windows 文件夹等。在 Linux 系统中,一些系统配置文件或软件配置文件会被隐藏起来,如:系统环境变量配置文件 .profile。有些时候,我们必须通过文件路径来遍历整个目录,然后找到隐藏文件。本文的主要内容是给大家分享 Python 三种遍历文件的方法。

01

简单暴力法-递归

假设在 E 盘中,有个名为“Python”的文件夹;该文件夹中也有两个文件夹,分别是“A”和“B”;另外,在“A”文件夹中还有一个 “results.txt” 的文本文件。因此,“Python”文件夹的文件结构如下:

Python
|--A
|  |--results.txt
|--B

我们可以从上述看出,一个文件夹其实是一个树型的数据结构。遍历树的最简单、最暴力的办法就是递归。因此,遍历“Python”的文件夹的代码可以这么写。

# -*- coding: UTF-8 -*-
import os

# 递归遍历目录
def traversal_files(path):
    for dir in os.listdir(path):
        dir = os.path.join(path, dir)
        print(dir)
        # 判断当前目录是否为文件夹
        if os.path.isdir(dir):
            traversal_files(dir)

if __name__ == '__main__':
    path = '.'
    traversal_files(path)

运行脚本程序后,发现“Python”中的文件和文件夹都被打印出来。

这种遍历方法能否找出隐藏文件?答案是肯定能。让我们来验证一番。首先,我们在“Python”的文件夹中放入一个“config.txt”的隐藏文件。

然后再运行程序,结果发现“config.txt”被打印出来。

这种办法虽然写起来代码简洁,但是在文件夹的子目录层级过深的情况下,效率会比较低。

02

优雅的 os.walk()

既然递归太暴力,那么使用 os.walk() 会让程序显得优雅。os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。这个方法适用于在 Linix 和 Windows。

os.walk() 一般用法是传入两个参数。第一个参数是 path, 即所要遍历的目录的地址。它返回的是一个三元组(root, dirs, files)。

  • root 所指的是当前正在遍历的这个文件夹的本身的地址
  • dirs 是一个 list ,内容是该文件夹中所有的目录的名字(不包括子目录)
  • files 同样是 list , 内容是该文件夹中所有的文件(不包括子目录)

第二个参数是topdown,它是一个可选参数。当它的值为 True 时,则优先遍历 path 目录,否则优先遍历 top 的子目录(默认为开启)。

因此,使用 os.walk 遍历文件夹,找出隐藏文件的代码如下所示。

# -*- coding: UTF-8 -*-
import os

def traversal_files(path):
    for root, dirs, files in os.walk(path, topdown=False):
        for name in files:
            print(os.path.join(root, name))
        for name in dirs:
            print(os.path.join(root, name))

if __name__ == '__main__':
    path = '.'
    traversal_files(path)

03高效的 os.scandir()

在 Python 3.5版本中,新添加了 os.scandir()方法,它是一个目录迭代方法。os.scandir() 的运行效率要比 os.walk 高。在 PEP 471 中,Python 官方也推荐我们使用 os.scandir() 来遍历目录。

按照前面的例子,遍历“Python”的文件夹中的隐藏文件的代码如下:

# -*- coding: UTF-8 -*-
import os

dirs = []
files = []

def traversal_files(path):
    for item in os.scandir(path):
        if item.is_dir():
            dirs.append(item.path)
        elif item.is_file():
            files.append(item.path)

    print('dirs:', dirs)
    print('files:', files)

if __name__ == '__main__':
    path = '.'
    traversal_files(path)

运行结果,同样也是能找出隐藏文件。

原文发布于微信公众号 - 极客猴(Geek_monkey)

原文发表时间:2018-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技巅

Glusterfs之rpc模块源码分析(中)之Glusterfs的rpc模块实现(1)

19230
来自专栏搜云库

Scala-2.13.0 安装及配置

Scala 简介 Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在J...

257100
来自专栏kalifaの日々

BeautifulSoup使用find,find_all常见问题汇总

1.soup.find(class='abc')报错,原因是find和find_all里面都不能直接把class作为参数,改写成如下任意一种就对了: 第一种,给...

36950
来自专栏码生

django 学习笔记三

拦截到url 后,通过拦截到的URL和 request 做一些不同的响应(response)

11720
来自专栏决胜机器学习

Redis专题(十一) ——Redis虚拟内存

Redis专题(十一) ——Redis虚拟内存 (原创内容,转载请注明来源,谢谢) 一、概述 Redis的数据是保存在内存中,当物理内存不足...

39290
来自专栏地方网络工作室的专栏

推荐一个命名变量的神奇网站 CODELF

推荐一个命名变量的神奇网站 CODELF 在我们写程序的时候,总是需要去给各种变量命名。于是各种命名大法都上来了,有拼音的,有首字母缩写的,各种各样。而我们推荐...

30870
来自专栏JavaQ

高并发编程-happens-before

happens-before是Java内存模型中定义的两个操作之间的偏序关系,即如果操作A在操作B之前先发生,那么操作A产生的操作结果,操作B可以观察到,或者说...

9020
来自专栏FreeBuf

Node.js中的内存泄漏分析

内存泄漏(Memory Leak)指由于疏忽或错误造成程序未能释放已经不再使用的内存的情况。如果内存泄漏的位置比较关键,那么随着处理的进行可能持有越来越多的无用...

56850
来自专栏逸鹏说道

“无法删除数据库,因为该数据库当前正在使用”问题解决

异常处理汇总-数据库系列 http://www.cnblogs.com/dunitian/p/4522990.html 以前刚学数据库的时候比较苦恼这个问题...

30040
来自专栏Linyb极客之路

工作流引擎之activiti流程定义

ProcessDefinition(流程定义)就是一个流程的步骤说明,比如我们接下来要说的这个流程,申请人王三发起提交申请,李四作为部门经理进行审批,审...

16630

扫码关注云+社区

领取腾讯云代金券