4．2 JSON 文件存储 -Python3网络爬虫开发实战(上)

当前位置:　首页>> 技术小册>> Python3网络爬虫开发实战(上)

4.2 JSON 文件存储

在Python网络爬虫开发过程中，数据的存储是一个至关重要的环节。JSON（JavaScript Object Notation）作为一种轻量级的数据交换格式，因其易于人阅读和编写，同时也易于机器解析和生成，成为了网络爬虫数据存储的首选格式之一。本章将深入探讨如何在Python中操作JSON文件，包括如何将爬取的数据以JSON格式存储到文件中，以及如何从JSON文件中读取数据。

4.2.1 JSON简介

JSON是一种基于文本的数据表示法，它借鉴了JavaScript的语法，但实际上是一种独立于语言的数据格式。JSON可以表示简单的数据类型（如字符串、数字、布尔值）和复杂的数据结构（如数组和对象）。由于其简洁性和通用性，JSON已成为Web应用程序中进行数据交换的标准格式。

在Python中，标准库json提供了对JSON格式的编码和解码支持。通过json模块，我们可以轻松地将Python对象转换成JSON格式的字符串，也可以将JSON格式的字符串转换成Python对象。

4.2.2 Python中的JSON处理

4.2.2.1 编码为JSON

Python的json模块提供了dumps()函数，用于将Python对象编码成JSON格式的字符串。这个函数非常灵活，允许我们通过参数控制编码过程，比如设置缩进以美化输出。

import json
data = {
    'name': 'John Doe',
    'age': 30,
    'is_student': False,
    'courses': ['Math', 'Science', 'Literature'],
    'address': {
        'street': '123 Elm St',
        'city': 'Somewhere'
    }
}
json_str = json.dumps(data, indent=4)
print(json_str)

上述代码将data字典转换成了格式化的JSON字符串，并打印出来。indent=4参数用于设置缩进，使输出更加易读。

4.2.2.2 解码JSON

与dumps()函数相对应，json模块还提供了loads()函数，用于将JSON格式的字符串解码成Python对象。

json_str = '{"name": "John Doe", "age": 30, "is_student": false, "courses": ["Math", "Science", "Literature"], "address": {"street": "123 Elm St", "city": "Somewhere"}}'
data = json.loads(json_str)
print(data)
print(type(data))  # 输出：<class 'dict'>

这段代码展示了如何将JSON字符串解码回Python字典。

4.2.3 存储JSON文件

在实际应用中，我们通常会将编码后的JSON字符串写入文件，以便长期保存和后续处理。Python的内置文件操作功能可以与json模块结合使用，实现这一目的。

with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

注意这里使用的是json.dump()函数，而不是dumps()。dump()函数直接将Python对象编码成JSON并写入文件，无需先转换为字符串。ensure_ascii=False参数允许在输出中包含非ASCII字符（如中文），而indent=4则用于美化输出。

4.2.4 读取JSON文件

与写入JSON文件相对应，我们也可以从文件中读取JSON数据。这通常通过json.load()函数实现。

with open('data.json', 'r', encoding='utf-8') as f:
    loaded_data = json.load(f)
print(loaded_data)
print(type(loaded_data))  # 输出：<class 'dict'>

这段代码展示了如何打开并读取JSON文件，将文件中的JSON数据解码回Python对象（本例中为字典）。

4.2.5 实际应用案例

假设我们正在开发一个网络爬虫，用于抓取某个网站上的商品信息。爬取到的数据可能包含商品的名称、价格、描述、图片URL等字段。我们可以将这些数据存储为JSON文件，以便后续进行数据分析或展示。

# 假设这是从网页上爬取到的商品信息列表
products = [
    {'name': '笔记本电脑', 'price': 5999, 'description': '高性能轻薄本...', 'image_url': 'http://example.com/img1.jpg'},
    {'name': '智能手机', 'price': 2999, 'description': '全面屏智能手机...', 'image_url': 'http://example.com/img2.jpg'},
    # ... 更多商品信息
]
# 将商品信息列表存储到JSON文件中
with open('products.json', 'w', encoding='utf-8') as f:
    json.dump(products, f, ensure_ascii=False, indent=4)
# 后续可以从文件中读取商品信息
with open('products.json', 'r', encoding='utf-8') as f:
    products_loaded = json.load(f)
    for product in products_loaded:
        print(product)