11．9 使用 AST 技术还原混淆代码 -Python3网络爬虫开发实战(上)

当前位置:　首页>> 技术小册>> Python3网络爬虫开发实战(上)

11.9 使用 AST 技术还原混淆代码

在Python网络爬虫的开发过程中，经常会遇到需要处理经过混淆的代码的情况。代码混淆是一种通过将代码转换成难以阅读和理解的形式来保护源代码的技术。虽然它增强了代码的安全性，但对于爬虫开发者而言，这可能成为分析网页行为、解析数据结构的障碍。幸运的是，Python提供了丰富的工具和库，特别是抽象语法树（AST）技术，可以帮助我们解析和还原这些混淆的代码。

11.9.1 理解代码混淆与AST

代码混淆：通常包括变量名替换为无意义的字符、控制流变换、字符串加密或拆分、以及删除不必要的注释和空格等手段。这些措施使得代码对于人类阅读者来说几乎不可读，但对机器执行而言依然有效。

抽象语法树（AST）：是源代码的抽象语法结构的树状表示形式。Python的ast模块允许Python程序处理Python源代码的AST，从而可以分析、修改或生成新的源代码。AST的每一个节点都代表了源代码中的一种结构，如函数定义、条件语句、循环等。

11.9.2 为什么要使用AST还原混淆代码

提高可读性：将混淆的代码转换成更易于理解的格式，便于开发者分析逻辑。
便于调试：在爬虫开发过程中，如果目标网站代码被混淆，直接调试可能非常困难，AST还原可以部分解决这个问题。
数据分析：对于需要解析网页动态生成内容的情况，了解混淆代码背后的逻辑是提取所需数据的关键。

11.9.3 准备工作

在开始之前，确保你的Python环境已经安装并配置好。接下来，我们将使用Python的ast模块来操作AST，可能还需要使用dis模块来查看字节码，以及exec或eval函数来执行修改后的代码（注意：执行未知代码存在安全风险，应谨慎使用）。

11.9.4 使用AST遍历和修改混淆代码

解析源代码到AST：
使用ast.parse()函数将源代码字符串解析成AST。

import ast
source_code = """
def obfuscated_function():
    a = 1
    b = 2
    c = a + b
    return c
"""
tree = ast.parse(source_code)

遍历AST：
使用ast.NodeVisitor或ast.NodeTransformer来遍历和修改AST。NodeVisitor用于简单的遍历，而NodeTransformer提供了修改节点的方法。

class RenameVariables(ast.NodeTransformer):
    def visit_Name(self, node):
        if isinstance(node.ctx, ast.Store):  # 如果是赋值操作
            new_name = f"var_{id(node)}"  # 生成新的变量名
            node.id = new_name  # 修改变量名
        return node
modified_tree = RenameVariables().visit(tree)

注意：这里只是简单地重命名了所有变量，实际中混淆代码的处理会更复杂。

将修改后的AST转换回源代码：
使用ast.unparse()（需要第三方库如astpretty或astor，因为标准库ast没有直接提供此功能）或自己编写代码来遍历AST并生成新的源代码字符串。
```
pip install astor
```
```
import astor
modified_source_code = astor.to_source(modified_tree)
print(modified_source_code)
```