当前位置：首页 > news >正文

100 天学会爬虫 · Day 8：如何用 XPath 高效定位网页元素？（爬虫最常用解析方式之一）

news 2026/5/27 1:49:59

在爬虫开发中，解析 HTML 的方式主要有三种：

正则表达式（不推荐新手使用）
BeautifulSoup（简单易用）
XPath（最强大、最精确）

今天我们要学习的是爬虫工程师最喜欢的解析方式之一：

XPath —— 提取网页结构最强大的工具

只要你掌握 XPath，再复杂的 HTML 都能被你快速解析。

🔍 一、XPath 是什么？

XPath 全称：

XML Path Language（XML 路径语言）

虽然名字里带 XML，但它同样适用于HTML。

它的作用是：

通过路径查找节点
精确定位网页元素
快速提取文本、属性、子节点

你可以把 XPath 看成网页的“地图导航”：

从 /html/body/div[1]/h1 找到标题节点

非常直观、非常精确。

🧭 二、为什么爬虫必须掌握 XPath？

理由如下：

✔ 1. BeautifulSoup 不够精确

遇到多层嵌套或重复节点时，XPath 的定位能力远超 BeautifulSoup。

✔ 2. 数据结构复杂的网站，XPath 更容易处理

尤其是电商站点、资讯站点、层级列表网站。

✔ 3. XPath 语法非常统一

你学会一次，可以用一辈子。

✔ 4. lxml + XPath 的解析速度非常快

适合大规模爬虫工程。

🔧 三、用 lxml + XPath 的基础用法

安装 lxml：

pip install lxml

解析 HTML：

from lxml import etree html = etree.HTML("<html>...</html>") result = html.xpath("你的 XPath 表达式")

result会返回一个列表，包含匹配到的节点或文本。

🧪 四、XPath 常用语法（爬虫最常用 Top 10）

① 选取所有某标签节点

//h1 //div //a

② 选取具体 class 的标签

//h1[@class="title"]

③ 选取含有某部分 class 的节点（超常用）

//div[contains(@class, "item")]

适用于 class 多个值的情况：

<div class="item active main">

④ 选取文本内容

//h1/text()

⑤ 选取属性（如 src、href）

//img/@src //a/@href

⑥ 索引定位（从 1 开始）

//ul/li[1] # 第一个 li //ul/li[last()] # 最后一个 li

⑦ 选取子节点（/）

//div/h1

⑧ 选取任意深度节点（//）

//div//span

⑨ 选取包含文本的节点

//a[contains(text(), "Python")]

⑩ 多条件筛选（进阶）

//div[@class="item" and @data-id="123"]

🔍 五、实战示例：解析文章标题与内容

假设你抓取一个网页，结构如下：

<div class="article"> <h1 class="title">Python 爬虫入门</h1> <p class="summary">这是简介内容</p> </div>

XPath 提取：

提取标题：

title = html.xpath('//h1[@class="title"]/text()')

提取简介：

summary = html.xpath('//p[@class="summary"]/text()')

提取整个文章块：

article = html.xpath('//div[@class="article"]')[0]

🧩 六、解析列表结构（爬虫最常见场景）

网页中常见：

新闻列表
商品列表
评论列表
视频列表
结构可能是：

<ul class="news"> <li> <a href="/1.html">新闻 1</a> </li> <li> <a href="/2.html">新闻 2</a> </li> </ul>

提取所有标题：

titles = html.xpath('//ul[@class="news"]/li/a/text()')

提取所有链接：

links = html.xpath('//ul[@class="news"]/li/a/@href')

XPath 对列表解析极其强大。

🛠 七、如何在浏览器中获取 XPath？

Chrome 可以自动生成 XPath：

打开 Elements 面板
右键节点
点击Copy → Copy XPath

但注意：

自动 XPath不够简洁
很多路径层级过深
建议自行优化

例如自动生成：

/html/body/div[2]/div[3]/div/h1

建议手写：

//h1[@class="title"]

更通用、更不易失败。

🔦 八、XPath 解析失败的常见原因

❌ 1. 页面由 JS 渲染（HTML 中没有数据）

此时应抓 Ajax 或使用 Selenium/Playwright。

❌ 2. class 有多个值，你却写成完整匹配

例如：

<div class="item active">

应写：

//div[contains(@class, "item")]

❌ 3. 标签层级不固定

用//更稳妥。

❌ 4. 忘记加 text() 或 @href

✅ 总结

今天你学到了：

XPath 是最强大的 HTML 解析工具之一
支持精确定位节点、属性、文本
非常适合爬虫解析复杂网页
Chrome 可以辅助生成 XPath
XPath 常见的十大语法
XPath 在列表结构中的应用
XPath 失败的常见原因及解决方案

掌握 XPath 是你成为爬虫开发者的重要里程碑，一旦熟练，再复杂的页面都能迎刃而解。

如果你在写 XPath 时遇到：

结构太复杂难以定位
多层嵌套不知如何写路径
text() 提取不到内容
Chrome 生成的 XPath 不能用
每个节点结构都不固定

可以加我微信cpseagogo，我可以帮你一起分析 HTML 结构和 XPath 写法。

查看全文

http://www.rkmt.cn/news/84050.html

哔哩下载姬DownKyi：重新定义B站视频下载体验的智能解决方案

天远全国自然人多头借贷风险API接口Java对接与解密工具类实现

人机环境系统智能是新理科与新文科的融点

【从零构建智能手写识别系统】：Dify平台下Tesseract 5.3深度配置与模型微调全流程

流水的CEO，铁打的图里琛：中层管理者的“顶级钝感力”

Git 面试题全面汇总

英雄联盟智能助手League Akari：从入门到精通的完整教程

AI智能改写助力：精选7款论文查重工具及可视化报告生成

C语言----三子棋

数据结构（C语言版）树二叉树

通义千问Qwen重磅发布Qwen-Image-Edit：开创图像编辑“语义+外观“双控新纪元

消費不是答案，但祛魅得先消費

Unity游戏翻译终极指南：XUnity.AutoTranslator完全掌握

一线大厂测试开发岗位面试经验与真题解析（2025年12月版）

不造车却对标特斯拉，地平线的三张底牌

SQL SELECT：向数据库“点菜”的神奇指令

就在刚刚，我发现了学习AI Agent最伟大的网站！

无需显卡！实战 Open-AutoGLM + 智谱 API：让 AI 替我玩手机

亚马逊宝塔面板安装mysql5.6、mysql5.7失败

你还在手动调试量子代码？VSCode自动化连接配置让效率提升10倍，速看！

如何在24小时内掌握R语言Copula模型？资深专家亲授高效路径

单日百款上新！我们如何用AI将电商“测款”视觉成本控制在1块钱？

Wan2.2-T2V-A14B输出720P视频的画质细节实拍展示

应对 API 调用频率限制的自动化优化方案

彻底掌控Windows右键菜单：ContextMenuManager终极操作指南

ASP.NET Core如何优化大文件上传的性能？

【C/C++】多继承以及继承过程的注意事项

【MCP SC-400安全加固黄金法则】：3年实战经验浓缩的7项配置规范

xshell的一个会话的连接的ip地址在哪里修改？

Day9 ＞＞ 151、反转字符串中的单词 +