Selenium与亮数据代理实战：绕过YouTube反爬虫的数据抓取方案-尧图网站建设

📅 发布时间：2026/6/24 20:59:32

1. 项目概述与核心挑战

最近在做一个数据分析项目，需要批量获取YouTube上特定频道或视频的公开数据，比如视频标题、播放量、点赞数、评论内容等。这听起来是个很常见的需求，对吧？但实际操作起来，你会发现YouTube（或者说Google）的反爬虫机制比想象中要“热情”得多。直接上requests库，没几下就会喜提429 Too Many Requests或者更直接的IP封禁。这不仅仅是频率问题，更是因为Google能通过一系列浏览器指纹、行为检测等手段，精准识别出脚本请求。

所以，这个项目的核心目标很明确：模拟真实用户行为，稳定、可靠地抓取YouTube的公开数据。为了实现这个目标，我选择的技术栈是Selenium + 亮数据（Bright Data）代理。Selenium用来驱动一个真实的浏览器，执行点击、滚动等操作，完美模拟人类行为；而亮数据代理则提供高质量的住宅IP，让我们的请求看起来像是来自世界各地的真实家庭用户，极大降低了被识别和封锁的风险。这篇文章，我就把整个从环境搭建、代码编写到避坑调试的完整流程，以及我踩过的那些“坑”，毫无保留地分享出来。无论你是数据分析师、市场研究员还是开发者，只要你有合规地获取公开网络数据的需求，这套方案都能给你提供一个坚实的起点。

注意：本文所有技术仅用于学习、测试及在遵守robots.txt协议和网站服务条款的前提下，获取公开可用数据。请务必尊重目标网站的资源负载，控制请求频率，切勿用于任何非法或侵扰性用途。

2. 技术选型与工具解析

为什么是Selenium？又为什么是亮数据代理？这个组合不是凭空想出来的，而是基于YouTube反爬机制的针对性选择。我们先来拆解一下对手。

2.1 为何选择Selenium对抗动态渲染与行为检测

YouTube是一个重度依赖JavaScript的动态单页应用（SPA）。你用requests或Scrapy直接请求视频页面URL，拿到的HTML源码里几乎找不到播放量、评论这些数据，因为它们都是后续通过JS异步加载的。传统爬虫对付这种页面非常吃力。

Selenium的核心价值在于，它可以直接控制一个真实的浏览器（如Chrome）。这意味着：

完整执行JavaScript：浏览器会像普通用户一样，加载页面、执行JS、渲染出完整的内容。此时，你需要的数据就已经存在于浏览器的DOM树中了。
模拟人类交互：反爬系统会检测行为模式。例如，一个真实用户会滚动页面、移动鼠标、在标签间切换。Selenium可以轻松模拟这些行为（如page_down滚动、随机延迟），使得爬虫的行为图谱更接近真人。
管理Cookies和会话：浏览器自动处理登录状态（如果需要）、cookies，保持了会话的连续性，这对于需要保持状态的抓取任务至关重要。

当然，Selenium也有缺点：速度慢、资源占用高。因为它要启动一个完整的浏览器实例。但对于YouTube这种反爬强度高、数据价值也高的网站，用资源换稳定性和成功率，是值得的。

2.2 为何选择亮数据代理解决IP封锁问题

即使你用Selenium完美模拟了行为，如果你的所有请求都来自同一个IP地址（尤其是数据中心IP），Google的防火墙依然会很快将你识别为异常流量并封锁。这时就需要代理IP，而代理IP的质量直接决定了项目的成败。

市面上代理IP很多，但大致分几类：

数据中心代理：便宜、速度快，但IP段公开，极易被大型网站（如Google）识别并屏蔽。不适合本项目。
住宅代理：IP来自真实的家庭宽带用户，隐匿性极佳，很难被区分。是绕过高级别反爬的首选。
移动代理：IP来自蜂窝移动网络，真实性更高，但通常更昂贵。

亮数据（Bright Data）提供的就是高质量的住宅代理网络。选择它的原因如下：

高匿名性与真实住宅IP：它的IP池由真实的住宅用户网络组成，请求头信息完整，使得我们的请求看起来完全像一个普通家庭用户在浏览YouTube。
强大的地理位置定位：你可以精确指定代理出口的国家、城市，甚至运营商。这对于需要获取地区性内容（如本地热门视频）的分析至关重要。
稳定的连接与高成功率：商业级代理服务在连接速度和稳定性上远胜于许多免费或低质代理，减少了因代理不稳定导致的爬虫中断。
易于集成：亮数据提供了多种集成方式，对于Selenium，我们可以直接通过--proxy-server命令行参数来配置，非常简单。

简而言之，Selenium负责“装得像人”，亮数据代理负责“装得像来自世界各地的真人”。两者结合，构成了绕过Google反爬的坚实盾牌。

2.3 环境准备清单

在开始写代码前，我们需要准备好战场。以下是需要安装和配置的所有组件：

Python 3.7+：基础编程环境。
Selenium库：通过pip安装：pip install selenium
Chrome浏览器：确保已安装最新版。
ChromeDriver：这是Selenium控制Chrome的桥梁。版本必须与你安装的Chrome浏览器主版本号完全匹配！去 ChromeDriver官网下载对应版本，并将其所在目录添加到系统PATH环境变量中，或者后续在代码中指定路径。
亮数据代理账号：注册后，在控制面板中获取你的代理信息，通常是主机:端口格式，以及用户名和密码。

3. 核心代码实现与分步详解

理论讲完，我们进入实战环节。我会把完整的代码拆解开，逐一解释每个部分的作用和注意事项。

3.1 基础Selenium驱动设置与代理集成

首先，我们如何启动一个带着代理的Chrome浏览器？这里不能使用简单的webdriver.Chrome()，我们需要通过ChromeOptions来添加复杂的配置。

from selenium import webdriver from selenium.webdriver.chrome.options import Options import time def create_driver_with_proxy(proxy_host, proxy_port, proxy_user, proxy_pass): """ 创建一个配置了亮数据住宅代理的Chrome WebDriver实例。 """ chrome_options = Options() # 1. 添加代理服务器配置 # 亮数据代理的认证通常通过用户名/密码嵌入在代理URL中 proxy_url = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}" chrome_options.add_argument(f'--proxy-server={proxy_url}') # 2. 关键隐身选项：避免被检测为自动化工具 # 移除“Chrome正在受到自动测试软件控制”的提示 chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"]) chrome_options.add_experimental_option('useAutomationExtension', False) # 3. 修改navigator.webdriver属性，这是很多网站检测自动化脚本的关键指纹 chrome_options.add_argument("--disable-blink-features=AutomationControlled") # 4. 其他实用选项 chrome_options.add_argument('--no-sandbox') # 在Linux/Docker环境中常用 chrome_options.add_argument('--disable-dev-shm-usage') # 解决共享内存问题 chrome_options.add_argument('--disable-gpu') # 某些虚拟环境可能需要 # chrome_options.add_argument('--headless') # 无头模式，不显示浏览器界面。调试时建议先注释掉。 # 5. 创建驱动 driver = webdriver.Chrome(options=chrome_options) # 确保chromedriver在PATH中，或使用executable_path参数指定路径 # 6. 执行CDP命令，进一步覆盖webdriver属性 driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', { 'source': ''' Object.defineProperty(navigator, 'webdriver', { get: () => undefined }); ''' }) return driver # 你的亮数据代理信息（请替换为实际值） PROXY_HOST = "zproxy.lum-superproxy.io" PROXY_PORT = 22225 PROXY_USER = "你的用户名" PROXY_PASS = "你的密码" driver = create_driver_with_proxy(PROXY_HOST, PROXY_PORT, PROXY_USER, PROXY_PASS)

代码解读与注意事项：

代理格式：http://用户:密码@主机:端口是标准格式。亮数据通常使用这种认证方式。
反检测核心：excludeSwitches和CDP命令execute_cdp_cmd是隐藏自动化特征的关键。现代反爬（如Distil Networks, PerimeterX）会检查navigator.webdriver属性，我们通过CDP命令在页面加载前将其覆盖为undefined。
无头模式：--headless可以节省资源，但在开发调试阶段，建议关闭它，直观地看到浏览器操作，更容易定位问题。
驱动路径：如果遇到WebDriver找不到的错误，可以使用webdriver.Chrome(executable_path='/path/to/chromedriver', options=chrome_options)。

3.2 模拟真人行为：访问、滚动与等待

直接快速加载页面并提取数据，行为太“机械”。我们需要加入随机延迟和模拟滚动。

import random from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def safe_get(driver, url, max_scroll=3): """ 安全访问URL，并模拟人类滚动行为。 """ print(f"正在访问: {url}") driver.get(url) # 随机等待，模拟页面加载和用户阅读时间 time.sleep(random.uniform(3, 7)) # 模拟滚动页面以触发懒加载内容（如评论） scroll_pause_time = random.uniform(1, 3) screen_height = driver.execute_script("return window.screen.height;") scrolls = 0 while scrolls < max_scroll: # 滚动一屏 driver.execute_script(f"window.scrollTo(0, {screen_height * (scrolls + 1)});") scrolls += 1 time.sleep(scroll_pause_time) # 随机决定是否继续滚动（增加行为随机性） if random.random() > 0.7 and scrolls < max_scroll: print(" 随机多滚动一次...") continue elif scrolls >= max_scroll: # 最后滚动回顶部附近，模拟用户行为 driver.execute_script("window.scrollTo(0, 200);") time.sleep(random.uniform(1, 2)) break # 使用显式等待，确保关键元素加载完成 try: # 例如，等待视频标题元素出现 wait = WebDriverWait(driver, 10) # 这里以h1标签为例，实际选择器需要根据YouTube页面结构调整 wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "h1.ytd-video-primary-info-renderer"))) print(" 页面核心内容加载完成。") except Exception as e: print(f" 等待关键元素超时: {e}") # 不一定失败，可能页面结构已变，继续尝试抓取 # 使用示例 video_url = "https://www.youtube.com/watch?v=dQw4w9WgXcQ" # 示例URL safe_get(driver, video_url, max_scroll=4)

行为模拟的精髓：

随机延迟：random.uniform(a, b)生成区间内的随机浮点数，使每次操作间隔时间不固定。
随机滚动：通过random.random()来随机决定是否增加滚动次数，打破固定模式。
显式等待：WebDriverWait配合expected_conditions是Selenium最佳实践。它比固定的time.sleep更高效，只在需要时等待。这里等待视频标题出现，作为页面加载完成的标志。
滚动计算：通过JavaScript获取屏幕高度，然后按屏滚动，能较好地模拟真人浏览。

3.3 定位与提取YouTube页面数据

这是爬虫的核心功能。YouTube的页面结构可能会变，所以选择器需要有一定的鲁棒性。以下示例基于当前（请注意时效性）的YouTube页面结构。

def extract_video_data(driver): """ 从当前打开的YouTube视频页面提取数据。 """ data = {} try: # 1. 视频标题 # 使用更通用的选择器，并尝试多个可能的位置 title_selectors = [ "h1.ytd-video-primary-info-renderer yt-formatted-string", "#title h1 yt-formatted-string", "h1.style-scope.ytd-video-primary-info-renderer" ] title = None for selector in title_selectors: try: title_elem = driver.find_element(By.CSS_SELECTOR, selector) title = title_elem.text if title: break except: continue data['title'] = title if title else "未找到标题" # 2. 频道名称 try: channel_elem = driver.find_element(By.CSS_SELECTOR, "ytd-channel-name #container #text-container yt-formatted-string a") data['channel'] = channel_elem.text except: data['channel'] = "未找到频道" # 3. 观看次数 - 这是一个经常变动的复杂区域 try: # 尝试多个可能的选择器 view_selectors = [ "span.ytd-video-view-count-renderer", "#info-text span:nth-child(1)", "div#count span:nth-child(1)" ] views = "0" for selector in view_selectors: try: view_elem = driver.find_element(By.CSS_SELECTOR, selector) views_text = view_elem.text # 清理文本，提取数字 import re numbers = re.findall(r'[\d,]+', views_text) if numbers: views = numbers[0].replace(',', '') break except: continue data['views'] = int(views) if views.isdigit() else views except Exception as e: data['views'] = f"提取失败: {e}" # 4. 点赞数 (需要展开描述才能获取) try: # 首先尝试找到“更多”按钮并点击，以展开描述和统计数据 more_button = driver.find_element(By.CSS_SELECTOR, "tp-yt-paper-button#expand") if more_button and more_button.text in ["更多", "SHOW MORE"]: driver.execute_script("arguments[0].click();", more_button) time.sleep(random.uniform(1, 2)) # 然后定位点赞数 like_button = driver.find_element(By.CSS_SELECTOR, "ytd-segmented-like-dislike-button-renderer #text") data['likes'] = like_button.get_attribute('aria-label') # 通常包含数字 # 进一步从aria-label中提取纯数字 import re likes_num = re.search(r'(\d+(?:,\d+)*)', data['likes']) data['likes'] = int(likes_num.group(1).replace(',', '')) if likes_num else data['likes'] except Exception as e: data['likes'] = f"未找到或提取失败: {e}" # 5. 上传日期 try: date_elem = driver.find_element(By.XPATH, "//div[@id='info']//span[contains(text(), '日') or contains(text(), '月') or contains(text(), '年') or contains(text(), 'ago')]") data['upload_date'] = date_elem.text except: data['upload_date'] = "未找到日期" except Exception as e: print(f"提取数据过程中发生未知错误: {e}") data['error'] = str(e) return data # 使用示例 video_data = extract_video_data(driver) print(video_data)

数据提取的挑战与技巧：

选择器策略：不要依赖单一且可能很脆弱的CSS选择器。准备一个备选选择器列表，循环尝试，直到成功找到一个。这能提高代码的容错能力。
文本清理：像观看次数、点赞数这类数据，页面上显示的是“1.2万次观看”、“12K likes”。我们需要用正则表达式（re模块）提取其中的数字部分，并处理“万”、“K”、“M”等单位换算（示例中未展示完整换算逻辑，需自行补充）。
交互后提取：有些数据（如详细的点赞/踩数）需要先点击“更多”按钮展开描述区域后才能获取。使用driver.execute_script(“arguments[0].click();”, element)来点击有时比element.click()更稳定。
使用aria-label属性：对于图标按钮后的数字，text属性可能为空，但aria-label属性（用于无障碍访问）常常包含了描述文本，如“12,345 likes”。这是一个非常有用的数据源。

3.4 处理分页与评论抓取

抓取评论是另一个常见需求，但评论是分页加载的（滚动加载更多）。

def scroll_to_load_comments(driver, max_comments=100): """ 通过滚动加载评论，直到加载出指定数量的评论或达到最大滚动次数。 """ print("开始加载评论...") last_height = driver.execute_script("return document.documentElement.scrollHeight") comments_loaded = 0 scroll_attempts = 0 max_attempts = 15 while comments_loaded < max_comments and scroll_attempts < max_attempts: # 滚动到底部 driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);") time.sleep(random.uniform(2, 4)) # 等待新评论加载 # 计算当前已渲染的评论数量 try: comment_elements = driver.find_elements(By.CSS_SELECTOR, "ytd-comment-thread-renderer") current_count = len(comment_elements) except: current_count = 0 # 如果评论数量没有增加，可能已加载完毕或需要点击“查看更多评论” if current_count == comments_loaded: # 尝试寻找并点击“查看更多评论”的按钮 try: more_button = driver.find_element(By.CSS_SELECTOR, "ytd-continuation-item-renderer #button") driver.execute_script("arguments[0].click();", more_button) print(" 点击了‘查看更多评论’。") time.sleep(random.uniform(3, 5)) except: # 没有找到按钮，可能真的加载完了，或者结构不同 scroll_attempts += 1 print(f" 评论数未增加，尝试次数 {scroll_attempts}/{max_attempts}") if scroll_attempts >= 3: # 尝试滚动到评论区域内的特定位置 driver.execute_script("document.querySelector('ytd-comments').scrollIntoView();") time.sleep(2) else: comments_loaded = current_count print(f" 已加载评论: {comments_loaded} 条") scroll_attempts = 0 # 重置尝试计数 # 计算新的滚动高度，检查是否已到底 new_height = driver.execute_script("return document.documentElement.scrollHeight") if new_height == last_height: # 页面高度未变，可能已无更多内容 scroll_attempts += 1 last_height = new_height print(f"评论加载结束，共加载约 {comments_loaded} 条。") return comment_elements if 'comment_elements' in locals() else [] def extract_comments(comment_elements, limit=50): """ 从评论元素列表中提取文本、作者、点赞数等信息。 """ comments = [] for i, elem in enumerate(comment_elements[:limit]): try: comment_data = {} # 作者 author_elem = elem.find_element(By.CSS_SELECTOR, "#author-text span") comment_data['author'] = author_elem.text # 评论内容 content_elem = elem.find_element(By.CSS_SELECTOR, "#content-text") comment_data['content'] = content_elem.text # 点赞数 like_elem = elem.find_element(By.CSS_SELECTOR, "#vote-count-middle") comment_data['likes'] = like_elem.text if like_elem.text else '0' # 发布时间 time_elem = elem.find_element(By.CSS_SELECTOR, "yt-formatted-string.published-time-text a") comment_data['time'] = time_elem.text comments.append(comment_data) except Exception as e: print(f"提取第{i+1}条评论时出错: {e}") continue return comments # 使用流程 # 1. 先访问视频页面 safe_get(driver, video_url) # 2. 滚动加载评论 all_comment_elements = scroll_to_load_comments(driver, max_comments=200) # 3. 提取评论信息 top_comments = extract_comments(all_comment_elements, limit=50) for comment in top_comments: print(comment)

评论抓取的关键点：

滚动检测：通过比较滚动前后的页面总高度(scrollHeight)来判断是否触底。但YouTube的评论是动态加载的，有时需要点击一个单独的“查看更多评论”按钮。
元素定位的滞后性：滚动后必须等待足够时间（time.sleep）让新评论的HTML元素被渲染到DOM中，才能通过find_elements找到它们。
设置终止条件：必须设置最大滚动尝试次数(max_attempts)，防止因页面结构问题或网络错误导致无限循环。
提取逻辑分离：将“滚动加载”和“数据提取”分成两个函数，结构更清晰，也便于调试。

3.5 完整代码整合与优雅退出

将以上所有功能整合到一个主函数中，并确保资源被正确释放。

import json from datetime import datetime def scrape_youtube_video(video_url, proxy_config, output_file='youtube_data.json'): """ 主函数：抓取指定YouTube视频的数据和评论。 """ driver = None all_data = { 'url': video_url, 'scraped_at': datetime.now().isoformat(), 'video_info': {}, 'comments': [] } try: # 1. 创建带代理的浏览器驱动 driver = create_driver_with_proxy(**proxy_config) print(f"驱动创建成功，开始抓取: {video_url}") # 2. 访问并模拟行为 safe_get(driver, video_url, max_scroll=3) # 3. 提取视频元数据 print("正在提取视频信息...") video_info = extract_video_data(driver) all_data['video_info'] = video_info print(f"视频信息提取完成: {video_info.get('title', 'N/A')}") # 4. 加载并提取评论 print("正在加载评论...") comment_elements = scroll_to_load_comments(driver, max_comments=150) # 可根据需要调整 if comment_elements: comments = extract_comments(comment_elements, limit=100) # 提取前100条 all_data['comments'] = comments print(f"评论提取完成，共 {len(comments)} 条。") else: print("未加载到评论。") # 5. 保存数据到JSON文件 with open(output_file, 'w', encoding='utf-8') as f: json.dump(all_data, f, ensure_ascii=False, indent=2) print(f"数据已保存至: {output_file}") except Exception as e: print(f"抓取过程中发生严重错误: {e}") all_data['error'] = str(e) # 即使出错，也尝试保存已获取的数据 if 'video_info' in locals() or 'comments' in locals(): with open(output_file + '.partial', 'w', encoding='utf-8') as f: json.dump(all_data, f, ensure_ascii=False, indent=2) print(f"部分数据已保存至: {output_file}.partial") finally: # 6. 确保浏览器被关闭 if driver: driver.quit() print("浏览器驱动已关闭。") return all_data # 配置与执行 if __name__ == "__main__": PROXY_CONFIG = { 'proxy_host': 'zproxy.lum-superproxy.io', 'proxy_port': 22225, 'proxy_user': '你的用户名', 'proxy_pass': '你的密码' } TARGET_URL = "https://www.youtube.com/watch?v=你的视频ID" result = scrape_youtube_video(TARGET_URL, PROXY_CONFIG, 'my_video_data.json')

4. 常见问题、调试技巧与优化策略

即使代码写好了，在实际运行中你一定会遇到各种问题。下面是我在实战中总结出来的“血泪经验”。

4.1 高频错误与解决方案速查表

问题现象	可能原因	解决方案
`SessionNotCreatedException`	Chrome浏览器与ChromeDriver版本不匹配。	严格匹配版本。去ChromeDriver官网下载与你的Chrome主版本号相同的驱动。在浏览器地址栏输入`chrome://version/`查看版本。
`NoSuchElementException`	元素选择器失效，页面结构已更新或元素未加载出来。	1.更新选择器：手动检查页面，使用浏览器开发者工具（F12）复制更新的CSS选择器或XPath。 2.增加等待：在查找元素前使用`WebDriverWait`显式等待元素出现。 3.使用更通用的选择器：避免使用过于具体、易变的类名。
`TimeoutException`	网络慢、代理不稳定或页面加载超时。	1.增加超时时间：`WebDriverWait(driver, 20)`。 2.检查代理状态：确认代理IP有效且网络通畅。 3.加入重试机制：在`try-except`块中捕获超时异常，然后重试操作。
抓取速度极慢	使用了无头模式但未禁用图片/样式加载，或代理延迟高。	1.优化Chrome选项：添加`--blink-settings=imagesEnabled=false`禁用图片，`--disable-javascript`慎用（会破坏页面功能）。 2.评估代理性能：尝试不同地理位置的代理IP，选择延迟较低的。
仍然被检测到是机器人	浏览器指纹不够“干净”，或行为模式仍有规律。	1.使用`undetected-chromedriver`：这是一个专门修改过的Selenium驱动，能更好地隐藏自动化特征。可以考虑集成。 2.增加行为随机性：将固定的等待时间改为随机区间；模拟鼠标移动轨迹；随机切换标签页再切回。 3.更换用户代理(User-Agent)：在`chrome_options`中添加`.add_argument(f'user-agent={random_ua}')`，从池中随机选取。
代理连接失败	代理认证失败、IP被封或网络问题。	1.检查代理字符串格式：确保`用户名:密码@主机:端口`格式正确，无多余空格。 2.在浏览器中测试代理：手动配置到Chrome网络设置中，看能否正常访问YouTube，以排除代码问题。 3.联系代理服务商：确认IP是否在目标网站的黑名单中。

4.2 高级调试技巧

关闭无头模式调试：这是最重要的技巧。在开发阶段，注释掉--headless参数，亲眼看着浏览器操作。你能直观地看到页面是否加载、元素是否出现、滚动是否生效。
使用driver.save_screenshot(‘debug.png’)：当脚本在无头模式下出错时，在关键步骤或异常捕获处截屏，能帮你快速定位页面当时的状态。
打印页面源码或元素HTML：当找不到元素时，打印driver.page_source或特定父元素的element.get_attribute(‘outerHTML’)，检查你写的选择器是否匹配实际DOM结构。
代理IP测试：写一个简单的测试脚本，仅用代理访问http://lumtest.com/myip.json这类显示IP的网站，确认代理IP已生效且地理位置符合预期。

4.3 性能与稳健性优化

连接复用与会话管理：如果需要抓取多个视频，不要为每个视频都driver.quit()然后重新driver = webdriver.Chrome()。这非常耗时。应该复用同一个driver实例，只调用driver.get(new_url)。但要注意，长时间会话可能增加被检测风险，可以设定一个阈值（如抓取20个视频后重启浏览器）。
实现重试装饰器：对于网络请求等不稳定操作，可以定义一个重试装饰器。

import functools import time def retry(max_attempts=3, delay=2): def decorator(func): @functools.wraps(func) def wrapper(*args, **kwargs): attempts = 0 while attempts < max_attempts: try: return func(*args, **kwargs) except Exception as e: attempts += 1 print(f”{func.__name__} 第{attempts}次尝试失败: {e}“) if attempts == max_attempts: raise time.sleep(delay * attempts) # 退避等待 return None return wrapper return decorator # 使用示例 @retry(max_attempts=3, delay=3) def safe_get_with_retry(driver, url): driver.get(url) WebDriverWait(driver, 15).until(EC.presence_of_element_located((By.TAG_NAME, “body”)))

分布式与速率控制：对于大规模抓取，考虑使用队列（如Redis）分发任务，并严格控制请求速率。为每个任务设置随机间隔（例如，每抓取一个视频后休眠random.uniform(30, 120)秒），严格遵守网站的robots.txt和可接受的访问频率。
定期更新选择器：YouTube的前端界面会不定期改版。将关键元素的选择器作为配置项存放在字典或外部配置文件中，一旦失效，只需更新配置，而无需修改核心代码逻辑。

这个项目从设计到实现，最深的体会是：对抗现代反爬虫，是一个系统工程。它不仅仅是写几行代码找到元素那么简单，而是需要你在浏览器指纹、网络行为、IP信誉等多个层面进行伪装和优化。Selenium+高质量住宅代理这个组合，虽然重，但提供了极高的成功率和稳定性，特别适合像YouTube、Google这类防守严密的“堡垒”。最后再次强调，技术是把双刃剑，请在法律和道德允许的范围内，负责任地使用这些知识。