当前位置：首页 > news >正文

告别手动解析，Python 加 AI 让网页抓取更稳定

news 2026/5/28 11:52:34

传统爬虫的“阿喀琉斯之踵”做过网页抓取的朋友都有过这样的经历好不容易写好了正则表达式或 CSS 选择器脚本运行得完美无缺。然而某天早上醒来目标网站悄悄更新了前端框架或者只是调整了商品价格的 DOM 结构你的程序瞬间报错返回一堆空值。这时候你不得不重新打开浏览器开发者工具定位新节点修改代码再次部署。这种“猫鼠游戏”在传统基于规则的爬虫开发中几乎无法避免尤其是面对电商、新闻等高频变动的站点时维护成本往往超过了开发成本。问题的核心在于传统爬虫依赖的是精确的结构匹配而网页的本质是语义内容的呈现。当结构服务于呈现时一旦呈现方式改变结构就失效了。解决之道在于引入“理解能力”让程序不再死记硬背“价格在第 3 个 div 的第 2 个 span 里”而是学会识别“这是价格”。这正是 Python 结合大语言模型LLM带来的范式转变。从“规则匹配”到“语义理解”的工作流新的解决方案并非完全抛弃 Python 生态而是重新划分了职责边界。在这个架构中Python 依然负责它最擅长的部分网络请求、并发控制、重试机制以及数据持久化。而原本最脆弱、最耗时的 HTML 解析与字段提取环节则交给了 AI 模型。整个流程可以概括为三个步骤获取与清洗、语义提取、验证与存储。首先利用requests库获取页面源码。但这步之后我们不再直接编写复杂的 XPath。相反我们使用BeautifulSoup进行“降噪”处理。网页中大量的script、style标签以及无关的广告代码不仅占用 Token还会干扰模型的判断。通过简单的遍历删除这些噪声我们能得到一个只保留核心文本和基础结构的“干净 HTML。接下来是关键一步将清洗后的 HTML 作为上下文输入给大模型。我们需要设计一段清晰的 Prompt告诉模型“这是一段商品页面的 HTML请从中提取商品名称、价格和货币单位并以严格的 JSON 格式返回。”模型基于其强大的语义理解能力能够忽略标签 class 名的变化直接锁定内容含义。即使网站将价格从span classprice改成了div>实战构建抗变的电商数据提取器让我们通过一个具体的电商商品页抓取案例看看代码是如何落地的。假设我们要抓取某演示站点的宝可梦商品信息。环境准备与依赖安装你需要安装基础的 HTTP 请求库、HTML 解析库以及大模型 SDKpipinstallrequests beautifulsoup4 openai核心代码实现以下是一个完整的极简实现展示了如何串联上述流程importjsonimportreimportrequestsfrombs4importBeautifulSoupfromopenaiimportOpenAI# 配置项TARGET_URLhttps://scrapeme.live/shop/Bulbasaur/OUTPUT_FILEproducts.jsonlMAX_TOKENS_LIMIT120000# 防止 HTML 过长超出模型限制deffetch_and_clean_html(url):获取页面并清洗噪声headers{User-Agent:Mozilla/5.0 (compatible; AIScraper/1.0)}responserequests.get(url,headersheaders,timeout30)response.raise_for_status()soupBeautifulSoup(response.text,html.parser)# 移除脚本和样式标签减少干扰fortaginsoup([script,style,noscript,header,footer]):tag.decompose()# 获取 body 内容并压缩空白字符clean_textre.sub(r\s, ,soup.body.get_text(separator ,stripTrue))returnclean_text[:MAX_TOKENS_LIMIT]defextract_with_ai(html_content):调用 AI 模型进行结构化提取clientOpenAI()# 需配置 OPENAI_API_KEY 环境变量# 定义期望的 JSON 结构json_schema{type:object,properties:{product_name:{type:string},price:{type:string},currency:{type:string}},required:[product_name,price,currency],additionalProperties:False}responseclient.chat.completions.create(modelgpt-4o,# 或其他支持 JSON Mode 的模型messages[{role:system,content:你是一个数据提取助手。请从提供的 HTML 文本中提取商品信息仅返回符合 Schema 的 JSON不要包含 Markdown 标记或其他解释。},{role:user,content:fURL:{TARGET_URL}\n\nHTML Content:\n{html_content}}],response_format{type:json_object,schema:json_schema})returnjson.loads(response.choices[0].message.content)defmain():try:# 1. 获取与清洗print(正在获取并清洗页面...)clean_htmlfetch_and_clean_html(TARGET_URL)# 2. AI 语义提取print(正在调用 AI 进行语义分析...)dataextract_with_ai(clean_html)# 3. 持久化存储withopen(OUTPUT_FILE,a,encodingutf-8)asf:f.write(json.dumps(data,ensure_asciiFalse)\n)print(f提取成功{data})exceptExceptionase:print(f发生错误{e})if__name____main__:main()方案对比与优势分析在这个例子中如果网站明天将价格标签从div.product-price改为span.cost-value传统的 BeautifulSoup 或 Scrapy 代码必须修改选择器逻辑才能运行。而在上述 AI 方案中只要页面上依然清晰展示了价格数字和货币符号模型就能准确识别并输出 JSON代码无需任何改动。这种基于语义的提取方式将开发者的精力从“维护选择器”转移到了“设计 Prompt和“验证数据质量”上。虽然单次调用的成本略高于本地解析但考虑到大幅降低的维护人力和时间成本特别是在面对反爬策略复杂、页面结构频繁迭代的场景时这种“以算力换稳定性”的策略显得尤为划算。通过将 Python 的工程化能力与大模型的认知能力结合我们不再是编写脆弱的规则脚本而是在构建具备一定“容错性”和“适应性”的智能数据管道。这不仅是技术的升级更是解决数据采集痛点的一种更优雅的思维路径。

查看全文

http://www.rkmt.cn/news/1413145.html