当前位置：首页 > news >正文

Selenium 与 Scrapy 双框架实战：网站防护机制下的稳定数据采集方案

news 2026/6/14 15:01:22

在工业数据采集场景中，纯 HTTP 框架面对动态渲染、指纹校验类站点时，极易触发目标站点的防护机制导致采集失败。而纯浏览器驱动方案虽然通过率高，但并发能力弱、资源消耗大，难以支撑中等规模的采集任务。

Selenium 与 Scrapy 双框架融合是业界常用的折中方案。由 Scrapy 承担请求调度、数据解析、持久化的流水线工作，Selenium 负责页面渲染与交互对抗防护，两者通过下载中间件无缝衔接，兼顾采集效率与通过率。

一、前期准备

本方案基于 Python 3.9+ 版本，需提前安装核心依赖库。

pipinstallscrapy selenium undetected-chromedriver

两套框架的职责边界非常清晰：

Scrapy：负责请求队列调度、页面解析、数据清洗、管道持久化，提供工程化的采集流水线
Selenium + undetected-chromedriver：负责浏览器渲染、JS 执行、交互模拟，承担绕过站点防护的核心职责

二、核心架构设计

融合方案的核心是 Scrapy 的下载器中间件（Downloader Middleware）。
中间件拦截原本由 Twisted 异步发送的 HTTP 请求，将需要渲染的 URL 转交给 Selenium 驱动浏览器加载。
浏览器完成页面渲染后，将完整的页面源码封装为 Scrapy Response 对象，交回上层 Spider 解析。

该架构对业务层完全透明。上层 Spider 的编写方式与纯 HTTP 采集完全一致，底层切换渲染引擎无需修改业务解析代码，迁移成本极低。

实际项目中通常采用混合调度模式：静态接口与资源走原生 HTTP 通道，动态页面走浏览器渲染通道，按需分配实现效率最大化。

三、分步实操

3.1 项目初始化

首先创建标准 Scrapy 项目，在 middlewares.py 中编写自定义 Selenium 中间件。

scrapy startproject collect_democdcollect_demo scrapy genspider demo_spider example.com

3.2 实现 Selenium 下载中间件

中间件负责浏览器实例的生命周期管理，以及请求的拦截与响应封装。
通过request.meta标记控制是否启用浏览器渲染，未标记的请求继续走原生下载链路。

浏览器初始化与生命周期管理：

classSeleniumRenderMiddleware:def__init__(self):options=uc.ChromeOptions()options.add_argument("--headless=new")options.add_argument("--disable-gpu")self.driver=uc.Chrome(options=options)@classmethoddeffrom_crawler(cls,crawler):middleware=cls()crawler.signals.connect(middleware.close_driver,signals.spider_closed)returnmiddlewaredefclose_driver(self,spider):self.driver.quit()

请求拦截与渲染逻辑：

defprocess_request(self,request,spider):# 未标记的请求走原生下载链路ifnotrequest.meta.get("use_selenium",False):returnNoneself.driver.get(request.url)body=self.driver.page_source.encode("utf-8")returnHtmlResponse(request.url,body=body,request=request)

生产环境建议通过 Spider 关闭信号主动释放浏览器资源，避免 Chrome 进程残留。可根据需求追加禁用图片、随机 UA 等启动参数。

3.3 启用中间件配置

在 settings.py 中注册中间件，并调整基础采集参数。
注意中间件优先级需高于系统默认下载中间件，才能成功拦截请求。

DOWNLOADER_MIDDLEWARES={"collect_demo.middlewares.SeleniumRenderMiddleware":543,}DOWNLOAD_DELAY=2RANDOMIZE_DOWNLOAD_DELAY=TrueCONCURRENT_REQUESTS_PER_DOMAIN=2

3.4 编写采集爬虫

Spider 层的写法与常规 Scrapy 爬虫完全一致。
只需在需要渲染的请求 meta 中添加use_selenium=True标记，即可自动走浏览器渲染通道。

importscrapyclassDemoSpider(scrapy.Spider):name="demo_spider"start_urls=["https://example.com/list"]defstart_requests(self):forurlinself.start_urls:yieldscrapy.Request(url,meta={"use_selenium":True})defparse(self,response):foriteminresponse.css(".item-card"):yield{"title":item.css(".title::text").get(),"link":item.css("a::attr(href)").get()}

3.5 数据持久化

通过 Scrapy 原生的 Item Pipeline 实现数据落地。
支持写入 CSV、JSON、MySQL、MongoDB 等多种存储介质，与常规采集项目配置完全一致。

四、防护机制对抗策略

4.1 浏览器指纹隐匿

使用 undetected-chromedriver 替代原生 ChromeDriver，默认移除 webdriver 标识、自动化插件等常见检测特征。
额外随机化窗口尺寸、语言、时区等环境参数，避免批量采集任务的特征同质化。
针对高阶检测站点，可注入 JS 覆盖 navigator.webdriver、plugins 等敏感属性。