XPath 简介：在 XML 和 HTML 中的应用-尧图网站建设

📅 发布时间：2026/6/21 20:50:09

webjser: 写一篇文章，将xpath xml和html的xpath

GitHub Copilot: ### XPath 简介：在 XML 和 HTML 中的应用

XPath（XML Path Language）是一种用于在 XML 和 HTML 文档中查找信息的语言。它通过路径表达式来选择文档中的节点或节点集，广泛应用于数据提取、爬虫开发、自动化测试等场景。XPath 的语法简单且功能强大，支持多种类型的表达式，包括绝对路径、相对路径、属性选择、条件过滤等。

XPath 的基本概念

XPath 的核心是路径表达式，它类似于文件系统中的路径，用于定位 XML 或 HTML 文档中的节点。以下是一些常见的 XPath 表达式：

1.基本选择

/bookstore：选择根元素<bookstore>。
//book：选择文档中所有的<book>元素。
/bookstore/book：选择<bookstore>元素下的所有<book>子元素。
//book/title：选择所有<book>元素中的<title>子元素。

2.属性选择

//book[@category]：选择所有具有category属性的<book>元素。
//book[@category='web']：选择category属性值为web的<book>元素。
//@lang：选择文档中所有的lang属性。
//title[@lang='en']：选择lang属性值为en的<title>元素。

3.位置选择

//book[1]：选择文档中第一个<book>元素。
//book[last()]：选择文档中最后一个<book>元素。
//book[position()<3]：选择文档中前两个<book>元素。
//book[price>35]：选择price元素值大于 35 的<book>元素。

4.通配符

//*：选择文档中的所有元素。
//@*：选择文档中的所有属性。
//title[@*]：选择所有具有任意属性的<title>元素。
//book/*：选择<book>元素下的所有子元素。

XPath 在 XML 中的应用

XML（可扩展标记语言）是一种用于存储和传输数据的标记语言。以下是一个示例 XML 文档：

<bookstore><bookcategory="cooking"><titlelang="en">Everyday Italian</title><author>Giada De Laurentiis</author><year>2005</year><price>30.00</price></book><bookcategory="children"><titlelang="en">Harry Potter</title><author>J K. Rowling</author><year>2005</year><price>29.99</price></book></bookstore>

示例 XPath 查询：

//book/title：选择所有<book>元素的<title>子元素。
- 结果：Everyday Italian和Harry Potter。
//book[@category='cooking']：选择category属性值为cooking的<book>元素。
- 结果：<book category="cooking">...</book>。
//book[price>29.99]：选择price元素值大于 29.99 的<book>元素。
- 结果：<book category="cooking">...</book>。

XPath 在 HTML 中的应用

HTML 是一种用于构建网页的标记语言。XPath 同样可以用于解析 HTML 文档，特别是在 Web 爬虫和自动化测试中。

示例 HTML 文档：

<html><body><divclass="content"><h1>标题</h1><p>这是段落内容。</p><ahref="https://www.jser.com">jser工具</a></div></body></html>

示例 XPath 查询：

//h1：选择文档中的<h1>元素。
- 结果：<h1>标题</h1>。
//a[@href]：选择所有具有href属性的<a>元素。
- 结果：<a href="https://www.jser.com">jser工具</a>。
//div[@class='content']/p：选择class属性值为content的<div>元素下的<p>子元素。
- 结果：<p>这是段落内容。</p>。

xpath测试

XPath 的优势

灵活性：支持多种路径表达式，能够精确定位节点。
强大的条件过滤：通过谓词（[]）可以实现复杂的条件查询。
跨平台：适用于 XML 和 HTML，广泛应用于数据提取、自动化测试等领域。

总结

XPath 是一门功能强大的语言，能够高效地在 XML 和 HTML 文档中定位节点。无论是开发 Web 爬虫、测试工具，还是处理复杂的 XML 数据，XPath 都是不可或缺的工具。通过熟练掌握 XPath 的语法和表达式，开发者可以大幅提升工作效率。