第十一章：实战一：使用Python基础库编写简单的爬虫-实战Python网络爬虫

当前位置:　首页>> 技术小册>> 实战Python网络爬虫

第十一章：实战一：使用Python基础库编写简单的爬虫

引言

在网络信息爆炸的时代，如何从浩如烟海的数据中高效地提取有价值的信息，成为了数据科学家、研究人员及普通用户共同面临的问题。Python作为一门功能强大且易于上手的编程语言，凭借其丰富的库和框架，成为了编写网络爬虫的首选工具之一。本章将带领读者从零开始，使用Python的基础库（如requests、urllib、re等）编写一个简单的网络爬虫，旨在帮助读者理解爬虫的基本原理，掌握基础的网页数据抓取技术。

1.1 爬虫基础概念

在深入探讨具体实现之前，我们先简要回顾一下网络爬虫的基本概念。网络爬虫（Web Crawler），又称为网页蜘蛛、网络机器人，是一种按照一定规则自动抓取互联网信息的程序或脚本。它模拟用户在浏览器中的行为，自动访问网页，提取所需信息，并可以进一步对这些信息进行存储、分析和处理。

1.2 Python基础库介绍

1.2.1 requests库

requests是Python中用于发送HTTP请求的第三方库，它简化了HTTP请求的发送过程，使得从URL获取数据变得简单快捷。requests支持多种HTTP请求方法，如GET、POST等，并且能够自动处理URL编码、会话cookies等复杂问题。

1.2.2 urllib库

虽然requests库因其易用性而广受欢迎，但Python标准库中的urllib系列（包括urllib.request、urllib.parse等）也是处理网络请求的重要工具。urllib.request模块提供了打开和读取URLs的功能，适合进行更底层的网络操作。

1.2.3 re库

re（Regular Expression，正则表达式）库是Python中用于字符串搜索和替换的强大工具。在爬虫中，re库常被用于解析HTML或JSON等格式的数据，提取出我们感兴趣的信息。

1.3 实战：编写一个简单的爬虫

接下来，我们将通过一个具体的例子，展示如何使用上述库编写一个简单的网络爬虫，该爬虫将访问一个静态网页，提取其中的特定信息。

1.3.1 确定目标

假设我们的目标是抓取一个假设的天气预报网站（http://example.com/weather），该网站展示了多个城市的天气信息，每个城市的天气信息都包含在一个<div>标签内，该<div>标签具有唯一的id或class属性。我们的任务是提取所有城市的名称及其对应的天气描述。

1.3.2 发送HTTP请求

首先，我们使用requests库发送GET请求，获取目标网页的HTML内容。

import requests
url = 'http://example.com/weather'
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
    html_content = response.text
else:
    print(f"Failed to retrieve the webpage. Status code: {response.status_code}")
    exit()

1.3.3 解析HTML内容

接下来，我们使用正则表达式或更高级的HTML解析库（如BeautifulSoup，但为保持本例的简洁性，这里仅展示正则表达式的使用）来解析HTML内容，提取所需信息。然而，需要注意的是，正则表达式在处理复杂或不规则的HTML时可能会显得力不从心，实际应用中更推荐使用BeautifulSoup或lxml等库。

这里仅作为示例，假设天气信息可以通过简单的正则表达式匹配：

import re
# 假设每个城市的天气信息都包含在形如<div class="city-weather">...</div>的标签内
pattern = r'<div class="city-weather">(.*?)</div>'
matches = re.findall(pattern, html_content, re.DOTALL)
for match in matches:
    # 这里需要进一步处理match字符串，以分离城市名和天气描述
    # 注意：这里仅作为示例，实际应用中可能需要根据HTML结构具体调整
    city_and_weather = match.split('<span class="city-name">')[1].split('</span>')[0]
    weather_description = match.split('<span class="weather-desc">')[1].split('</span>')[0]
    print(f"City: {city_and_weather}, Weather: {weather_description}")