19｜http库：如何批量下载在线内容，解放鼠标（下）？-Python自动化办公实战

当前位置:　首页>> 技术小册>> Python自动化办公实战

19 | HTTP库：如何批量下载在线内容，解放鼠标（下）

在上一章节中，我们初步探索了利用Python中的HTTP库（如requests）来实现在线内容的下载，并简要介绍了如何通过编写简单的脚本来自动化这一过程，从而初步解放了我们的鼠标。本章节将在此基础上进一步深入，探讨更高级、更复杂的批量下载策略，包括但不限于多线程/异步下载、处理重定向、下载进度显示、错误处理及重试机制等，以期实现更高效、更稳定的在线内容批量下载解决方案。

一、多线程/异步下载

在批量下载大量文件时，单线程模式往往会因为网络延迟或服务器限制而效率低下。采用多线程或异步IO技术可以显著提高下载速度，因为它们允许多个任务同时执行，充分利用了网络带宽和CPU资源。

1.1 多线程下载

Python的threading模块提供了创建多线程的基本框架。我们可以为每个下载任务分配一个线程，从而并行执行。

import requests
from threading import Thread
import os
def download_file(url, filename):
    response = requests.get(url, stream=True)
    if response.status_code == 200:
        with open(filename, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                if chunk:
                    f.write(chunk)
def download_multiple(urls, filenames):
    threads = []
    for url, filename in zip(urls, filenames):
        t = Thread(target=download_file, args=(url, filename))
        t.start()
        threads.append(t)
    for t in threads:
        t.join()
# 示例使用
urls = ['http://example.com/file1.zip', 'http://example.com/file2.jpg']
filenames = ['file1.zip', 'file2.jpg']
download_multiple(urls, filenames)

1.2 异步下载（使用`asyncio`）

Python 3.5及以上版本引入了asyncio库，支持编写单线程的并发代码。通过aiohttp库，我们可以实现异步的HTTP请求。

import aiohttp
import asyncio
async def download_file(session, url, filename):
    async with session.get(url) as response:
        if response.status == 200:
            with open(filename, 'wb') as f:
                while chunk := await response.content.read(8192):
                    f.write(chunk)
async def download_multiple(urls, filenames):
    async with aiohttp.ClientSession() as session:
        tasks = [download_file(session, url, filename) for url, filename in zip(urls, filenames)]
        await asyncio.gather(*tasks)
# 示例使用
urls = ['http://example.com/file1.zip', 'http://example.com/file2.jpg']
filenames = ['file1.zip', 'file2.jpg']
asyncio.run(download_multiple(urls, filenames))

二、处理重定向

在下载过程中，经常会遇到URL重定向的情况。requests库默认会处理HTTP重定向，但有时候我们可能需要自定义重定向的行为，比如限制重定向次数，或者在重定向发生时记录日志。

import requests
def download_with_redirects(url, max_redirects=5):
    try:
        response = requests.get(url, allow_redirects=True, max_redirects=max_redirects)
        response.raise_for_status()  # 如果响应状态码不是200，将抛出HTTPError异常
        # 后续处理...
    except requests.exceptions.TooManyRedirects:
        print(f"Too many redirects ({max_redirects}) for URL: {url}")
    except requests.exceptions.RequestException as e:
        print(f"Error downloading {url}: {e}")
# 示例使用
download_with_redirects('http://example.com/redirected')

三、下载进度显示

对于大型文件的下载，提供进度条反馈可以显著提升用户体验。requests库本身不直接支持进度显示，但我们可以通过监听下载过程中的数据块来实现。

import requests
from tqdm import tqdm
def download_with_progress(url, filename):
    response = requests.get(url, stream=True)
    total_size_in_bytes = int(response.headers.get('content-length', 0))
    block_size = 1024  # 1 Kilobyte
    progress_bar = tqdm(total=total_size_in_bytes, unit='iB', unit_scale=True)
    with open(filename, 'wb') as file:
        for data in response.iter_content(block_size):
            progress_bar.update(len(data))
            if data:
                file.write(data)
    progress_bar.close()
# 示例使用
download_with_progress('http://example.com/largefile.zip', 'largefile.zip')

四、错误处理及重试机制

网络请求常因多种原因失败，如网络不稳定、服务器超时等。实现自动重试机制可以增强程序的健壮性。

import requests
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry
def requests_retry_session(
    retries=3,
    backoff_factor=0.3,
    status_forcelist=(500, 502, 504),
    session=None,
):
    session = session or requests.Session()
    retry = Retry(
        total=retries,
        read=retries,
        connect=retries,
        backoff_factor=backoff_factor,
        status_forcelist=status_forcelist,
    )
    adapter = HTTPAdapter(max_retries=retry)
    session.mount('http://', adapter)
    session.mount('https://', adapter)
    return session
# 示例使用
session = requests_retry_session(retries=5, backoff_factor=0.5)
response = session.get('http://example.com/file.zip')
response.raise_for_status()
# 后续处理...

五、总结

通过本章节的学习，我们不仅掌握了如何利用Python的HTTP库进行批量下载的基本方法，还深入探讨了多线程/异步下载、处理重定向、显示下载进度以及实现错误处理和重试机制的高级技巧。这些技能将极大地提升我们处理在线内容下载任务的能力，使我们能够更高效地自动化办公流程，进一步解放双手，专注于更有价值的工作。在未来的实践中，建议结合具体场景和需求，灵活运用这些技术，不断优化和完善批量下载解决方案。