第四章：Python数据存储与文件操作-实战Python网络爬虫

当前位置:　首页>> 技术小册>> 实战Python网络爬虫

第四章：Python数据存储与文件操作

在网络爬虫项目中，数据的存储与文件操作是不可或缺的一环。有效地管理和处理爬取到的数据，不仅有助于后续的数据分析，还能提升整个项目的可维护性和可扩展性。本章将深入探讨Python中数据存储与文件操作的基本方法，包括文本文件的读写、JSON与CSV格式数据的处理、以及使用数据库进行数据存储等。

4.1 引言

在网络爬虫项目中，爬虫脚本负责从互联网上抓取数据，而数据存储与文件操作则负责将这些数据以适当的形式保存下来，供后续使用。Python作为一门功能强大的编程语言，提供了丰富的库来支持各种数据存储和文件操作需求，包括但不限于内置的文件操作函数、标准库中的json、csv模块，以及第三方库如pandas、SQLite、MySQLdb（针对MySQL）等。

4.2 文本文件的读写

4.2.1 打开文件

在Python中，使用内置的open()函数可以打开文件。该函数接受文件路径（可以是绝对路径或相对路径）和模式（如读’r’、写’w’、追加’a’等）作为参数，并返回一个文件对象。

# 打开文件以读取
with open('example.txt', 'r') as file:
    content = file.read()
    print(content)
# 打开文件以写入，如果文件不存在则创建
with open('new_example.txt', 'w') as file:
    file.write('Hello, Python!')

使用with语句可以确保文件在使用后正确关闭，即使在读写文件时发生异常也是如此。

4.2.2 读取与写入

文件打开后，可以使用read(), readline(), readlines()等方法读取文件内容，使用write(), writelines()等方法写入内容。

# 读取一行
with open('example.txt', 'r') as file:
    line = file.readline()
    print(line.strip())  # strip() 去除行尾的换行符
# 写入多行
with open('multiple_lines.txt', 'w') as file:
    lines = ['First line.\n', 'Second line.\n', 'Third line.']
    file.writelines(lines)

4.3 JSON格式数据的处理

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。Python的json模块提供了对JSON数据的编码和解码功能。

4.3.1 JSON编码（Python对象到JSON字符串）

import json
data = {
    'name': 'John Doe',
    'age': 30,
    'is_student': False,
    'courses': ['Math', 'Science']
}
json_str = json.dumps(data, indent=4)  # indent用于美化输出
print(json_str)
# 写入文件
with open('data.json', 'w') as file:
    json.dump(data, file, indent=4)

4.3.2 JSON解码（JSON字符串到Python对象）

with open('data.json', 'r') as file:
    data = json.load(file)
print(data)
print(type(data))  # 输出: <class 'dict'>

4.4 CSV格式数据的处理

CSV（Comma-Separated Values）是一种用逗号分隔的文本文件格式，常用于存储表格数据。Python的csv模块提供了读取和写入CSV文件的功能。

4.4.1 写入CSV文件

import csv
rows = [
    ['Name', 'Age', 'City'],
    ['Alice', 24, 'New York'],
    ['Bob', 19, 'Los Angeles']
]
with open('people.csv', 'w', newline='') as file:  # newline='' 防止在Windows上写入额外空行
    writer = csv.writer(file)
    writer.writerows(rows)

4.4.2 读取CSV文件

with open('people.csv', 'r') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

4.5 数据库存储

对于大量数据或需要频繁查询、更新的场景，使用数据库进行数据存储更为合适。Python提供了多种数据库操作的方式，包括SQLite这样的轻量级数据库和通过第三方库支持的其他关系型数据库（如MySQL、PostgreSQL）及NoSQL数据库（如MongoDB）。

4.5.1 SQLite数据库操作

SQLite是一个轻量级的数据库，不需要配置服务器即可使用，非常适合小型项目或原型开发。Python的sqlite3模块提供了对SQLite数据库的支持。

import sqlite3
# 连接到SQLite数据库
# 如果文件不存在，会自动在当前目录创建
conn = sqlite3.connect('example.db')
c = conn.cursor()
# 创建表
c.execute('''CREATE TABLE IF NOT EXISTS stocks
             (date text, trans text, symbol text, qty real, price real)''')
# 插入一行数据
c.execute("INSERT INTO stocks VALUES ('2023-04-01','BUY','RHAT',100,35.14)")
# 提交事务
conn.commit()
# 查询数据
c.execute('SELECT * FROM stocks WHERE symbol=?', ('RHAT',))
print(c.fetchone())
# 关闭连接
conn.close()

4.5.2 使用Pandas处理数据并存储到数据库

pandas是一个强大的数据处理库，它不仅支持CSV、Excel等文件的读写，还能与数据库交互，将DataFrame直接存储到数据库中。

import pandas as pd
from sqlalchemy import create_engine
# 假设df是一个已经存在的DataFrame
# 连接到SQLite数据库
engine = create_engine('sqlite:///mydatabase.db')
# 将DataFrame存储到数据库中
df.to_sql('my_table', con=engine, if_exists='replace', index=False)

4.6 总结

本章介绍了Python中数据存储与文件操作的基本方法，包括文本文件的读写、JSON与CSV格式数据的处理，以及使用SQLite数据库进行数据存储。这些技能对于网络爬虫项目至关重要，因为它们直接影响到数据的收集、整理和分析效率。掌握这些技能后，你将能够更有效地管理和利用爬虫抓取的数据，为后续的数据分析和可视化工作打下坚实的基础。