7．4 Playwright 的使用 -Python3网络爬虫开发实战(上)

当前位置:　首页>> 技术小册>> Python3网络爬虫开发实战(上)

7.4 Playwright 的使用

在Python网络爬虫开发的广阔领域中，随着Web技术的不断演进，传统的HTTP请求与响应模式已难以满足日益复杂的网页交互需求。自动化测试工具如Selenium的兴起，为爬虫开发者提供了一种模拟用户行为、处理JavaScript渲染页面的新途径。而Microsoft推出的Playwright，作为Selenium的强劲对手，以其更简洁的API设计、更强大的功能以及跨浏览器支持，逐渐在网络爬虫和自动化测试领域崭露头角。本章将深入介绍如何在Python中使用Playwright进行网络爬虫开发。

7.4.1 Playwright简介

Playwright是一个由Microsoft开发的Node.js库，用于自动化Chromium、Firefox和WebKit浏览器。尽管它是基于Node.js的，但Python开发者可以通过playwright-python包轻松地在Python环境中使用Playwright。Playwright支持多种编程语言，这使得它成为跨平台自动化测试和网络爬虫开发的理想选择。

Playwright的核心优势包括：

跨浏览器支持：支持Chrome、Firefox、WebKit（Safari）等主流浏览器。
自动等待：内置等待机制，自动等待元素加载完成，减少因页面未完全加载导致的错误。
丰富的API：提供页面截图、PDF导出、模拟移动设备、网络请求拦截等高级功能。
易于上手：API设计简洁直观，易于学习和使用。

7.4.2 安装与配置

要在Python中使用Playwright，首先需要安装playwright-python包以及Playwright浏览器驱动。安装过程可以通过pip和Playwright的命令行工具完成。

安装playwright-python

打开终端或命令提示符，运行以下命令安装playwright-python：
```
pip install playwright
playwright install
```
playwright install命令会自动下载Chromium、Firefox和WebKit的浏览器驱动，并放置在合适的目录下。
配置环境

安装完成后，无需额外配置即可在Python脚本中导入并使用Playwright。

7.4.3 基本使用

接下来，我们将通过一个简单的示例来展示如何在Python中使用Playwright进行网页自动化操作。

示例：使用Playwright打开网页并截图

from playwright.sync_api import sync_playwright
def run(playwright):
    browser = playwright.chromium.launch(headless=False)  # 启动无头浏览器，设置为False可看到浏览器界面
    page = browser.new_page()
    page.goto('https://www.example.com')
    page.screenshot(path='example.png')  # 截图并保存
    browser.close()
with sync_playwright() as playwright:
    run(playwright)

上述代码展示了如何使用Playwright同步API打开一个网页并截图。sync_playwright()上下文管理器用于自动处理Playwright的启动和关闭。chromium.launch()方法用于启动Chromium浏览器（你也可以选择firefox或webkit），new_page()方法创建一个新的页面对象，goto()方法用于导航到指定URL，screenshot()方法用于截图。

异步使用

Playwright同样支持异步API，这对于提高爬虫效率尤为重要。

from playwright.async_api import async_playwright
async def run(playwright):
    browser = await playwright.chromium.launch(headless=False)
    page = await browser.new_page()
    await page.goto('https://www.example.com')
    await page.screenshot(path='example_async.png')
    await browser.close()
async def main():
    async with async_playwright() as playwright:
        await run(playwright)
import asyncio
asyncio.run(main())

异步版本的代码结构类似，但所有与Playwright交互的方法都使用了await关键字，并且整个流程被包裹在async函数中。

7.4.4 进阶应用

Playwright的强大之处在于其丰富的API和灵活的用法，以下是一些进阶应用的示例。

1. 页面元素交互

# 假设我们要填写表单并提交
await page.fill('input[name="username"]', 'your_username')
await page.fill('input[name="password"]', 'your_password')
await page.click('button[type="submit"]')

2. 等待元素加载

Playwright内置了等待机制，但你也可以显式地等待某个元素出现或消失。

# 等待元素可见
await page.wait_for_selector('div.some-class')
# 等待元素不可见
await page.wait_for_selector('div.some-class', state='hidden')

3. 网络请求拦截

Playwright允许你拦截并修改网络请求，这在处理需要登录验证或修改请求参数的场景中非常有用。

async with page.expect_request('**/*api/data*', lambda request: True) as request_info:
    await page.goto('https://www.example.com/data')
    request = await request_info.value
    # 修改请求头、请求体等
    await request.continue_({
        'headers': {
            ...  # 新的请求头
        },
        'method': 'POST',  # 修改请求方法
        'postData': '...'  # 修改请求体
    })

4. 模拟移动设备

Playwright支持模拟不同的移动设备和屏幕尺寸，这对于测试响应式网站或移动应用尤为重要。

browser = await playwright.chromium.launch(headless=False)
context = await browser.new_context(
    viewport_size={'width': 375, 'height': 667},
    user_agent='Mozilla/5.0 (iPhone; CPU iPhone OS 14_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Mobile/15E148 Safari/604.1'
)
page = await context.new_page()
await page.goto('https://www.example.com')