4．3 CSV 文件存储 -Python3网络爬虫开发实战(上)

当前位置:　首页>> 技术小册>> Python3网络爬虫开发实战(上)

4.3 CSV 文件存储

在网络爬虫开发过程中，数据的存储是一个至关重要的环节。CSV（Comma-Separated Values，逗号分隔值）文件作为一种简单、通用的数据格式，因其易于读写、支持多种编程语言和工具操作的特点，成为网络爬虫数据存储的常用选择之一。本章将详细介绍如何在Python中使用CSV模块进行数据的读取、写入以及处理，以便高效地将爬取的数据保存到CSV文件中。

4.3.1 CSV文件基础

CSV文件是一种纯文本文件，用于存储表格数据，如电子表格或数据库。在CSV文件中，数据以行为单位进行存储，每行数据由逗号（或其他分隔符，如制表符、分号等）分隔成多个字段。CSV文件的第一行通常作为表头，用于描述后续各行数据的含义。

4.3.2 Python中的CSV模块

Python标准库中的csv模块提供了读写CSV文件的功能。该模块包含reader、writer、DictReader和DictWriter等类，分别用于读取和写入CSV文件。

csv.reader(csvfile, dialect=’excel’, fmtparams)：用于读取CSV文件。csvfile可以是一个打开的文件对象或任何具有readline()方法的对象。dialect参数用于指定CSV文件的格式，默认为'excel'，表示Excel的CSV格式。`fmtparams是可选的关键字参数，用于覆盖dialect`中的设置。
csv.writer(csvfile, dialect=’excel’, fmtparams)：用于写入CSV文件。与reader类似，csvfile是文件对象，dialect和`fmtparams`用于指定文件格式。
csv.DictReader(csvfile, fieldnames=None, restkey=None, restval=None, dialect=’excel’, *args, kwds)**：以字典的形式读取CSV文件。如果fieldnames参数未提供，则第一行数据将被用作字段名。
csv.DictWriter(csvfile, fieldnames, restval=’’, extrasaction=’raise’, dialect=’excel’, *args, kwds)**：以字典的形式写入CSV文件。fieldnames是一个包含所有字段名的列表，用于定义CSV文件的列。

4.3.3 写入CSV文件

假设我们爬取了一个网页上的商品信息，包括商品ID、名称、价格和库存量，现在需要将这些信息保存到CSV文件中。

import csv
# 商品数据列表
products = [
    {'id': 1, 'name': '产品A', 'price': 100.0, 'stock': 100},
    {'id': 2, 'name': '产品B', 'price': 200.0, 'stock': 50},
    # ... 更多商品数据
]
# 定义CSV文件名
filename = 'products.csv'
# 使用DictWriter写入CSV文件
with open(filename, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.DictWriter(file, fieldnames=['id', 'name', 'price', 'stock'])
    # 写入表头
    writer.writeheader()
    # 写入数据
    for product in products:
        writer.writerow(product)
print(f'数据已成功写入{filename}')

在上述代码中，我们首先导入了csv模块，并定义了一个包含商品信息的列表products。然后，我们使用with语句打开（或创建）一个名为products.csv的文件，并设置模式为'w'（写入模式），newline=''用于防止在Windows系统中写入额外的空行，encoding='utf-8'确保文件以UTF-8编码保存。接着，我们创建了一个DictWriter对象，指定了字段名列表fieldnames，并调用了writeheader()方法写入表头。最后，通过遍历products列表，并使用writerow()方法将每个商品信息写入CSV文件。

4.3.4 读取CSV文件

当我们需要处理或分析之前保存的CSV文件时，可以使用csv.reader或csv.DictReader来读取文件内容。

import csv
# 定义CSV文件名
filename = 'products.csv'
# 使用DictReader读取CSV文件
with open(filename, mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    # 遍历CSV文件中的每一行
    for row in reader:
        print(row)  # 打印整行数据，以字典形式展示
        # 可以根据需要进行进一步处理，如访问特定字段
        # print(row['name'], row['price'])

在上述代码中，我们使用with语句以只读模式打开products.csv文件，并创建了一个DictReader对象来读取文件。通过遍历reader对象，我们可以逐行访问CSV文件中的数据，每行数据以字典的形式呈现，其中字典的键是字段名，值是对应的数据。

4.3.5 注意事项与最佳实践

文件编码：在读写CSV文件时，应明确指定文件的编码方式，如utf-8，以避免因编码不一致导致的乱码问题。
异常处理：在文件操作中，应加入异常处理机制，如使用try...except语句块，以捕获并处理可能出现的错误，如文件不存在、权限不足等。
性能优化：对于大规模数据的读写，应考虑使用更高效的数据处理库，如pandas，它提供了更为强大的数据处理功能，并优化了内存使用。
安全性：在处理来自不可信源的数据时，应注意数据清洗和验证，以防止注入攻击等安全问题。

4.3.6 小结

本章介绍了如何在Python中使用csv模块进行CSV文件的读写操作。通过DictReader和DictWriter类，我们可以以字典的形式方便地处理CSV文件中的数据，使得数据的读取和写入变得更加直观和灵活。在实际的网络爬虫开发过程中，合理利用CSV文件存储数据，可以大大提高数据处理的效率和便捷性。