Python 如何解析 XML 数据？

当前位置：技术文章>> Python 如何解析 XML 数据？

文章标题：Python 如何解析 XML 数据？

文章分类: 后端
3671 阅读

在Python中解析XML数据是一项常见且重要的任务，尤其是在处理Web服务、配置文件或数据交换格式时。Python提供了多种方式来解析XML数据，包括使用标准库中的xml.etree.ElementTree、xml.dom.minidom以及第三方库如lxml和BeautifulSoup（尽管后者主要用于HTML解析，但也支持XML）。下面，我们将深入探讨这些方法的使用，并通过示例代码展示如何有效地解析XML数据。

1. 使用`xml.etree.ElementTree`

xml.etree.ElementTree（简称ET）是Python标准库中最常用的XML解析器之一，因其简单高效而备受欢迎。它提供了一个轻量级的API来解析和创建XML数据。

解析XML

首先，我们需要有一个XML文件或字符串作为输入。以下是一个简单的XML示例：

<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
</data>

使用xml.etree.ElementTree解析这个XML的代码如下：

import xml.etree.ElementTree as ET

# 假设xml_data是上面XML的字符串表示
xml_data = '''...（此处省略完整的XML字符串）...'''

# 解析XML
root = ET.fromstring(xml_data)  # 如果是从文件读取，则使用ET.parse('file.xml').getroot()

# 遍历XML
for country in root.findall('country'):
    name = country.get('name')
    rank = country.find('rank').text
    year = country.find('year').text
    gdppc = country.find('gdppc').text
    print(f"Country: {name}, Rank: {rank}, Year: {year}, GDP per capita: {gdppc}")

    # 处理邻居信息
    for neighbor in country.findall('neighbor'):
        print(f"  Neighbor: {neighbor.get('name')}, Direction: {neighbor.get('direction')}")

这段代码首先导入了xml.etree.ElementTree模块，并使用fromstring方法从字符串中解析XML（如果是从文件读取，则使用ET.parse('file.xml').getroot()）。然后，它遍历所有的<country>标签，并提取每个国家的相关信息，包括名称、排名、年份和人均GDP。对于每个国家，它还遍历<neighbor>标签，打印出每个邻居的名称和方向。

2. 使用`xml.dom.minidom`

xml.dom.minidom是另一个Python标准库中的XML解析器，它实现了DOM（文档对象模型）接口。与ElementTree相比，minidom提供了更丰富的接口来操作XML文档，但相应地，它的性能也稍逊一筹。

解析XML

继续使用之前的XML示例，使用xml.dom.minidom解析的代码如下：

from xml.dom.minidom import parseString

# 假设xml_data是上面XML的字符串表示
xml_data = '''...（此处省略完整的XML字符串）...'''

# 解析XML
dom = parseString(xml_data)  # 如果是从文件读取，则使用parse('file.xml')

# 获取根元素
root = dom.documentElement

# 遍历XML
countries = root.getElementsByTagName('country')
for country in countries:
    name = country.getAttribute('name')
    rank = country.getElementsByTagName('rank')[0].firstChild.data
    year = country.getElementsByTagName('year')[0].firstChild.data
    gdppc = country.getElementsByTagName('gdppc')[0].firstChild.data
    print(f"Country: {name}, Rank: {rank}, Year: {year}, GDP per capita: {gdppc}")

    # 处理邻居信息
    neighbors = country.getElementsByTagName('neighbor')
    for neighbor in neighbors:
        name = neighbor.getAttribute('name')
        direction = neighbor.getAttribute('direction')
        print(f"  Neighbor: {name}, Direction: {direction}")

这段代码首先导入了xml.dom.minidom模块中的parseString函数（如果是从文件读取，则使用parse）。然后，它解析XML字符串，并获取根元素。接着，它遍历所有的<country>标签，并提取每个国家及其邻居的信息。

3. 使用第三方库`lxml`

lxml是一个强大的第三方库，用于高效地解析和生成XML和HTML文档。它提供了比标准库更丰富的API，并且性能优异。

安装`lxml`

在使用lxml之前，你需要先安装它。可以通过pip来安装：

pip install lxml

解析XML

继续使用之前的XML示例，使用lxml解析的代码如下：

from lxml import etree

# 假设xml_data是上面XML的字符串表示
xml_data = '''...（此处省略完整的XML字符串）...'''

# 解析XML
root = etree.fromstring(xml_data)  # 如果是从文件读取，则使用etree.parse('file.xml').getroot()

# XPath表达式
countries = root.xpath('//country')
for country in countries:
    name = country.get('name')
    rank = country.xpath('rank/text()')[0]
    year = country.xpath('year/text()')[0]
    gdppc = country.xpath('gdppc/text()')[0]
    print(f"Country: {name}, Rank: {rank}, Year: {year}, GDP per capita: {gdppc}")

    # 处理邻居信息
    neighbors = country.xpath('neighbor')
    for neighbor in neighbors:
        name = neighbor.get('name')
        direction = neighbor.get('direction')
        print(f"  Neighbor: {name}, Direction: {direction}")

这段代码首先导入了lxml库中的etree模块。然后，它使用fromstring方法从字符串中解析XML（如果是从文件读取，则使用etree.parse('file.xml').getroot()）。lxml支持XPath表达式，这使得查找特定元素变得更加方便和灵活。在上面的代码中，我们使用了XPath表达式来查找所有的<country>标签及其子元素。

总结

在Python中解析XML数据有多种方法，包括使用标准库中的xml.etree.ElementTree和xml.dom.minidom，以及第三方库如lxml。每种方法都有其特点和适用场景。ElementTree因其简单高效而备受欢迎，minidom提供了更丰富的接口但性能稍逊，而lxml则以其强大的功能和优异的性能成为处理大型XML文档的首选。

无论你选择哪种方法，都需要确保你理解XML的结构，并知道如何有效地提取你需要的信息。在实际应用中，你可能还需要处理XML命名空间、属性、注释等更复杂的情况。通过学习和实践，你将能够灵活地运用这些工具来解析和处理XML数据。

希望这篇文章能帮助你更好地理解和使用Python中的XML解析技术。如果你对XML解析有更深入的需求或遇到具体问题，不妨访问我的码小课网站，那里有更多的教程和示例代码等你来探索。

文章标题：Python 如何解析 XML 数据？

1. 使用xml.etree.ElementTree

解析XML

2. 使用xml.dom.minidom

解析XML

3. 使用第三方库lxml

安装lxml

解析XML

总结

推荐文章

1. 使用`xml.etree.ElementTree`

2. 使用`xml.dom.minidom`

3. 使用第三方库`lxml`

安装`lxml`