提高技能必须掌握！lxml选择器技巧和支持的选择器总结！

2024-01-14 11:36:42 前端笔记 155

进阶必备！lxml选择器的使用技巧及支持的选择器一览！

概述：

在进行Web数据抓取或者数据提取时，选择器是一个非常重要的工具。在Python中，有很多选择器库可供选择，其中lxml是一个功能强大的选择器库。本文将介绍lxml选择器的使用技巧以及支持的选择器一览，帮助读者进一步提升数据提取的效率。

一、lxml选择器简介

lxml是一个基于Python的解析器库，它提供了可扩展的XPath选择器和CSS选择器，用于解析HTML和XML文档。lxml选择器的主要优势在于它的速度快、功能强大，适合处理大型文件。在使用lxml选择器之前，需要先安装lxml库，可以通过以下命令进行安装：

pip install lxml

二、lxml选择器的基本用法

lxml选择器的基本用法非常简单，只需要导入相应的模块并创建一个选择器对象，然后利用选择器对象进行数据的提取。

首先，导入lxml库和相应的模块：

from lxml import etree

然后，解析HTML或XML文档，并创建选择器对象：

# 解析HTML文档
html = '''
<html>
    <body>
        <div class="container">
            <h1>标题1</h1>
            <p class="content">内容1</p>
        </div>
        <div class="container">
            <h1>标题2</h1>
            <p class="content">内容2</p>
        </div>
    </body>
</html>
'''

# 创建选择器对象
selector = etree.HTML(html)

接下来，可以使用选择器对象提取数据。lxml选择器支持XPath选择器和CSS选择器，下面将分别介绍它们的用法。

XPath（XML Path Language）是一种用于在XML或HTML文档中进行导航和提取信息的语言。lxml选择器支持XPath选择器，通过XPath选择器可以精确地定位到要提取的元素。

常见的XPath语法包括：

选择元素：、、选择属性：选择文本：选择父节点：

以下是几个XPath选择器的示例：

# 提取h1标签的文本
titles = selector.xpath('//h1/text()')
print(titles)  # 输出：['标题1', '标题2']

# 提取p标签的属性class值
classes = selector.xpath('//p/@class')
print(classes)  # 输出：['content', 'content']

CSS选择器

CSS（Cascading Style Sheets）选择器是一种用于在HTML文档中选择元素的语言。lxml选择器也支持CSS选择器，通过CSS选择器可以通过标签、类、ID等方式进行元素的定位。

常见的CSS选择器包括：

选择标签：标签名选择类：选择ID：选择父子关系：空格选择相邻兄弟关系：选择后续兄弟关系：

以下是几个CSS选择器的示例：

# 提取h1标签的文本
titles = selector.cssselect('h1')
for title in titles:
    print(title.text)  # 输出：标题1、标题2

# 提取p标签的属性class值
classes = selector.cssselect('p.content')
for p in classes:
    print(p.get('class'))  # 输出：content、content

三、lxml选择器支持的选择器一览

lxml选择器支持的选择器包括XPath选择器和CSS选择器，下面是一些常用的选择器：

XPath选择器：

：选择根节点

：选择所有节点

：条件选择

：选择属性

：选择文本

：选择父节点

CSS选择器：

标签选择器：标签名
类选择器：

ID选择器：