7．8 字体反爬案例分析与爬取实战 -Python3网络爬虫开发实战(上)

当前位置:　首页>> 技术小册>> Python3网络爬虫开发实战(上)

7.8 字体反爬案例分析与爬取实战

在Web爬虫领域，网站为了保护数据不被轻易抓取，会采用各种反爬虫技术。其中，字体反爬（也称为字体加密或CSS字体混淆）是一种较为新颖且有效的防御手段。它通过将网页中的关键信息（如数字、价格、用户名等）通过自定义字体进行显示，而这些字体文件（如.woff、.woff2等）中实际存储的是加密后的字符形状，而非标准的字符编码。这样，即使爬虫能够获取到HTML源代码，也无法直接解析出这些关键信息的真实内容。本章将深入分析字体反爬的原理，并通过实战案例展示如何破解并爬取这类数据。

7.8.1 字体反爬原理概述

字体反爬的核心在于利用Web字体技术（Web Fonts）将敏感信息以非标准字符集的形式展示。当浏览器加载网页时，会同时下载并渲染这些自定义字体文件。浏览器根据CSS样式规则，将特定文本以这些字体显示，而爬虫则无法直接识别这些被“美化”后的字符所代表的实际意义。

字体文件（如.woff）内部存储的是字体的字形描述，而非字符的ASCII码或Unicode码。因此，即使爬虫能够下载字体文件，也需要额外的步骤来解析这些字形与原始字符之间的映射关系。

7.8.2 字体反爬案例分析

案例背景：假设我们需要爬取一个电商网站上的商品价格，但该网站采用了字体反爬技术，将价格数字以自定义字体显示。

步骤一：识别字体反爬

首先，通过浏览器开发者工具（如Chrome的DevTools）检查目标元素的CSS样式。如果发现font-family属性指向了一个非标准字体（如MyCustomFont），且该字体通过@font-face规则在CSS中定义，并链接到了一个外部字体文件（如mycustomfont.woff），则可以初步判断该网站使用了字体反爬技术。

步骤二：下载字体文件

在浏览器开发者工具的网络请求（Network）标签页中，找到并下载该字体文件。通常，字体文件会在页面加载时作为资源被请求。

步骤三：分析字体文件

字体文件的分析需要借助专门的工具，如FontForge、FontEditor等。这些工具可以打开.woff、.woff2等格式的字体文件，并允许用户查看和编辑字体中的字形。

打开字体文件：使用FontForge等工具打开下载的字体文件。
查看字形映射：在工具中查看每个字符对应的字形，并尝试识别这些字形所代表的实际字符。这通常是一个手动过程，需要对比多个字符来建立映射关系。
编写解析脚本：根据字形与字符的映射关系，编写Python脚本（或利用现有库）来自动化解析过程。

步骤四：编写爬虫

在掌握了字体文件中字符的映射关系后，可以编写爬虫来抓取网页内容，并使用解析脚本将加密的字符转换为真实的数据。

# 假设已经有一个函数font_decode，它接受加密字符和字体映射表，返回解码后的字符
def fetch_and_decode_price(url, font_mapping):
    # 使用requests或selenium等库获取网页内容
    response = requests.get(url)
    html = response.text
    # 假设通过某种方式（如正则表达式）提取出加密的价格字符串
    encrypted_price = extract_price_from_html(html)
    # 解码价格
    decoded_price = font_decode(encrypted_price, font_mapping)
    return decoded_price
# 调用函数
decoded_price = fetch_and_decode_price('http://example.com/product', font_mapping)
print(decoded_price)