如何在 Python 中使用 glob 模块？

当前位置：技术文章>> 如何在 Python 中使用 glob 模块？

文章标题：如何在 Python 中使用 glob 模块？

文章分类: 后端
4603 阅读

在Python中，glob模块是一个非常实用的工具，它允许你通过Unix shell风格的通配符来查找符合特定模式的文件路径名。这种功能在处理文件或目录时特别有用，尤其是当你需要批量处理文件，但又不想编写复杂的递归遍历代码时。下面，我们将深入探讨如何在Python中使用glob模块，并通过实例展示其强大功能。

引入`glob`模块

首先，你需要在你的Python脚本或交互式环境中导入glob模块。这可以通过简单的import语句完成：

import glob

基本用法

glob模块的核心是glob.glob()函数，它接受一个路径模式作为字符串，并返回一个包含所有匹配该模式的路径名的列表。如果没有找到任何匹配项，则返回一个空列表。

示例：查找当前目录下所有`.txt`文件

# 查找当前目录及子目录下所有.txt文件
txt_files = glob.glob('*.txt')
print(txt_files)

这个例子中，'*.txt'是一个模式，*是一个通配符，代表任意数量的任意字符。因此，这个模式会匹配当前目录下所有扩展名为.txt的文件。

示例：查找特定目录下的文件

如果你想在特定目录下查找文件，只需在模式字符串中指定该目录的路径即可。

# 查找指定目录下所有.py文件
py_files = glob.glob('/path/to/directory/*.py')
print(py_files)

进阶用法

glob模块的功能远不止于此。通过巧妙地组合使用不同的通配符和路径分隔符，你可以构建出非常强大的模式来匹配几乎任何类型的文件路径。

使用递归模式查找文件

值得注意的是，glob本身并不直接支持递归查找（即，查找目录及其所有子目录中的文件）。但是，你可以通过组合使用os.walk()（来自os模块）和glob.glob()来模拟递归查找的行为。不过，从Python 3.5开始，glob模块通过**模式提供了对递归查找的支持（在某些平台上）。

示例：Python 3.5+ 递归查找所有`.jpg`文件

如果你的Python版本支持，可以直接使用**来递归查找文件：

# 递归查找当前目录及所有子目录下所有.jpg文件
jpg_files = glob.glob('**/*.jpg', recursive=True)
print(jpg_files)

注意recursive=True参数，它告诉glob.glob()函数进行递归查找。

示例：模拟递归查找（兼容所有Python版本）

如果你的Python版本不支持**模式，你可以使用os.walk()来模拟递归查找：

import os

def recursive_glob(rootdir='.', pattern='*'):
    matches = []
    for root, dirnames, filenames in os.walk(rootdir):
        for filename in fnmatch.filter(filenames, pattern):
            matches.append(os.path.join(root, filename))
    return matches

# 查找当前目录及所有子目录下所有.jpg文件
jpg_files = recursive_glob(pattern='*.jpg')
print(jpg_files)

这里，我们使用了os.walk()来遍历目录树，并使用fnmatch.filter()（来自fnmatch模块）来检查每个文件名是否匹配给定的模式。fnmatch模块提供了对Unix shell风格通配符的支持，与glob模块类似，但它是用于字符串匹配而不是文件路径查找。

注意事项

通配符匹配：glob模块使用的通配符包括*（匹配任意数量的任意字符）、?（匹配任意单个字符）、[seq]（匹配seq中的任意字符，其中seq是一个字符集合，可以包含范围，如[a-z]表示小写字母）等。
路径分隔符：在Windows系统中，路径分隔符通常是\，而在Unix/Linux系统中是/。但在使用glob时，通常推荐使用/作为路径分隔符，因为glob模块会根据你的操作系统自动处理路径分隔符的问题。
性能考虑：当处理大量文件或深层目录结构时，递归查找可能会非常耗时。在这种情况下，考虑是否所有文件都需要被查找，或者是否可以通过优化模式来减少匹配的文件数量。
异常处理：虽然glob.glob()在找不到匹配项时会返回一个空列表而不是抛出异常，但在处理文件路径时仍然可能遇到其他类型的异常（如权限问题）。因此，在使用glob时，适当的异常处理是一个好习惯。

结合`glob`模块进行文件处理

一旦你使用glob模块找到了所需的文件列表，你就可以对这些文件进行进一步的处理了。例如，你可以读取文件内容、修改文件属性、复制或移动文件等。这里是一个简单的示例，展示了如何使用glob找到所有.txt文件，并打印出它们的文件名和内容（假设文件不大，可以一次性读入内存）：

import glob

# 查找当前目录下所有.txt文件
txt_files = glob.glob('*.txt')

# 遍历文件列表，并打印文件名和内容
for file_path in txt_files:
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        print(f"文件名: {file_path}")
        print(f"内容: {content[:100]}...")  # 仅打印前100个字符作为示例
        print()  # 打印空行以分隔不同文件的内容

这个示例展示了glob模块在文件处理任务中的典型应用：先找到需要处理的文件，然后对每个文件执行一系列操作。

结论

glob模块是Python中处理文件路径的一个非常有用的工具，它通过Unix shell风格的通配符提供了一种简洁的方式来查找符合特定模式的文件。虽然它本身不直接支持递归查找，但你可以通过组合使用os.walk()或利用Python 3.5及以上版本中的**模式来实现这一功能。在处理大量文件或需要编写可移植代码时，glob模块尤其有用。希望这篇文章能帮助你更好地理解和使用glob模块，并在你的Python项目中发挥它的作用。

在码小课网站上，我们提供了更多关于Python编程的深入教程和实战案例，旨在帮助初学者到高级开发者不断提升自己的编程技能。无论你是想要学习新的库和框架，还是想要解决特定的编程问题，码小课都能为你提供有价值的资源和指导。

文章标题：如何在 Python 中使用 glob 模块？

引入glob模块