基于Playwright实现图片批量AVIF转换与压缩的自动化方案-尧图网站建设

📅 发布时间：2026/6/26 17:15:56

1. 项目概述与核心价值

最近在整理一个老项目的图片素材库，几千张PNG和JPEG文件，加起来快20个G，不仅占空间，加载起来也慢得让人头疼。手动一张张处理？那简直是灾难。我琢磨着，得找个既能批量转换格式，又能有效压缩的自动化方案。目标格式我锁定了AVIF，这玩意儿在同等画质下，体积能比JPEG小一半以上，对Web性能提升是肉眼可见的。但市面上成熟的本地批量转换工具要么收费，要么对AVIF支持不完善，参数调整也不够灵活。

于是，我把目光投向了在线工具。像 ImagesTool 这样的网站，提供了直观的AVIF转换和压缩界面，参数可控，效果也不错。但问题来了，它一次只能处理一张或少量图片，对于大批量任务，重复性的点击、上传、下载操作足以消磨掉所有耐心。这就是自动化脚本登场的时候了。我选择了Playwright，一个现代的浏览器自动化库。它不像Selenium那样“笨重”，启动快，API设计也更符合现代前端开发者的直觉，用来模拟用户操作在线工具再合适不过。这个项目的核心，就是写一个脚本，让Playwright这个“数字员工”自动登录ImagesTool网站，帮我把本地文件夹里的图片挨个上传、设置AVIF参数、转换、下载，一气呵成。它解决的不仅是“批量”的问题，更是将在线工具的手动操作流程固化、标准化，实现了无人值守的自动化处理流水线。无论你是前端开发者需要优化网站资源，还是摄影师、内容创作者需要处理大量图片，这个思路都能帮你节省大量重复劳动时间。

2. 技术选型与方案设计思路

为什么是Playwright，而不是更老牌的Selenium或Puppeteer？这背后有几个关键的考量点。首先，浏览器兼容性与一致性。Playwright由微软开发，直接为Chromium、Firefox和WebKit（Safari内核）提供了高质量的原生支持，并且能确保在不同浏览器引擎上API行为高度一致。我们操作的是一个具体的网站（ImagesTool），不需要考虑跨浏览器测试，但Playwright启动无头Chromium的速度和资源占用表现非常出色，这对于需要长时间运行、处理大量任务的脚本来说至关重要。

其次，强大的自动化能力与可靠性。Playwright的API设计非常人性化，比如page.wait_for_selector、page.wait_for_load_state等，能智能地等待页面元素加载或网络请求完成，大大减少了因页面加载速度不稳定而导致脚本失败的情况。这对于操作一个可能包含异步上传、转换进度条等动态内容的在线工具网站，稳定性提升不是一点半点。再者，它的网络拦截与模拟功能很强，我们可以轻松监听文件上传的请求和文件下载的响应，这是实现自动化下载转换后文件的关键。

整个方案的设计流程可以拆解为以下几个核心环节：

环境初始化：启动一个无头浏览器，打开ImagesTool网站。
文件遍历与队列构建：扫描本地指定目录，筛选出目标格式（如.jpg, .png）的图片文件，形成一个待处理队列。
页面操作自动化：对于队列中的每个文件，脚本自动执行：点击上传按钮 -> 选择文件 -> 设置转换参数（选择AVIF格式、调整质量/压缩等级）-> 触发转换。
状态监控与下载：监控转换进度，等待转换完成，然后自动触发下载，并将下载的文件保存到指定输出目录。
错误处理与日志：在整个过程中，需要捕获可能出现的异常（如网络超时、网站界面变化、文件格式不支持等），并进行重试或记录日志，确保流程的健壮性。

这个设计的巧妙之处在于，它没有去破解或调用网站未公开的API（那既不道德也不稳定），而是完全模拟了一个真实用户的操作路径。只要网站的前端交互逻辑不变，我们的脚本就能持续工作。即使网站有小幅改版，我们通常也只需要调整元素选择器，核心逻辑无需大变。

注意：在实施此类自动化脚本前，务必查阅目标网站的robots.txt文件和服务条款，确保你的自动化操作不违反其规定。ImagesTool这类工具站通常对合理的个人自动化使用是允许的，但应避免高频请求对其服务器造成压力。

3. 核心工具链搭建与环境配置

工欲善其事，必先利其器。我们先来把跑通这个自动化流程所需的环境和工具链搭建好。整个过程以Python为例，因为Playwright的Python绑定非常成熟，生态也好。

3.1 Python环境与Playwright安装

首先，确保你的电脑上安装了Python 3.7或更高版本。我强烈建议使用虚拟环境来管理项目依赖，避免污染全局环境。

# 创建项目目录并进入 mkdir avif-batch-processor && cd avif-batch-processor # 创建虚拟环境（这里使用venv，你也可以用conda） python -m venv venv # 激活虚拟环境 # Windows: venv\Scripts\activate # macOS/Linux: source venv/bin/activate

激活虚拟环境后，命令行提示符前通常会显示(venv)。接下来安装Playwright：

pip install playwright

安装完Python包后，Playwright还需要下载它要控制的浏览器（如Chromium）。使用以下命令一次性安装所需浏览器：

playwright install chromium

这里我们只安装Chromium就足够了，因为它最轻量，兼容性也足够好。安装过程会下载几百兆的浏览器二进制文件，请保持网络通畅。

3.2 项目目录结构设计

一个清晰的目录结构能让代码维护起来更轻松。我的项目结构通常是这样安排的：

avif-batch-processor/ ├── src/ │ ├── main.py # 主脚本，包含核心自动化逻辑 │ ├── config.py # 配置文件，存放网站URL、选择器、输出路径等 │ └── utils.py # 工具函数，如文件遍历、日志记录 ├── input_images/ # 存放待处理的原始图片 ├── output_avif/ # 存放处理后的AVIF图片（脚本自动创建） ├── logs/ # 存放运行日志（脚本自动创建） ├── requirements.txt # 项目依赖列表 └── README.md # 项目说明文档

在config.py里，我们可以把一些可能会变的配置项抽出来，比如：

# config.py INPUT_DIR = "./input_images" OUTPUT_DIR = "./output_avif" LOG_DIR = "./logs" IMAGESTOOL_URL = "https://to.imagestool.com" # 关键页面元素的选择器（需要根据实际网站分析） UPLOAD_BUTTON_SELECTOR = "input[type='file']" # 文件上传输入框 FORMAT_DROPDOWN_SELECTOR = "select[name='format']" # 格式选择下拉框 QUALITY_SLIDER_SELECTOR = "input[name='quality']" # 质量滑块 CONVERT_BUTTON_SELECTOR = "button:has-text('Convert')" # 转换按钮 DOWNLOAD_LINK_SELECTOR = "a.download-link" # 下载链接（示例，需核实）

3.3 分析目标网站与元素选择器

这是最关键的一步，决定了脚本能否“看”得见、“点”得准。我们需要手动打开ImagesTool网站，使用浏览器的开发者工具（F12）来分析页面结构。

打开网站并定位上传区域：进入网站，找到图片上传的区域。通常是一个“点击上传”的按钮或拖拽区域。右键点击它，选择“检查”。在Elements面板中，找到对应的<input type="file">元素。这就是我们的UPLOAD_BUTTON_SELECTOR。有时它可能被隐藏或用<label>包裹，需要仔细查找其id或name属性。
定位格式选择与参数设置：上传一张图片后，网站会显示转换选项。找到选择输出格式的下拉菜单（<select>）或单选按钮组，以及调整压缩质量（Quality）的滑块（<input type="range">）或输入框。记录下它们的选择器。
定位转换与下载按钮：找到开始转换的按钮，以及转换完成后出现的下载链接或按钮。下载链接的选择器尤其重要，我们需要用它来获取文件。

实操心得：选择器的稳定性优先于简洁性。优先使用id、name或具有唯一性的># main.py import os import time import logging from pathlib import Path from playwright.sync_api import sync_playwright, TimeoutError as PlaywrightTimeoutError from config import INPUT_DIR, OUTPUT_DIR, LOG_DIR, IMAGESTOOL_URL, UPLOAD_BUTTON_SELECTOR, FORMAT_DROPDOWN_SELECTOR, QUALITY_SLIDER_SELECTOR, CONVERT_BUTTON_SELECTOR, DOWNLOAD_LINK_SELECTOR # 设置日志 logging.basicConfig( level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s', handlers=[ logging.FileHandler(os.path.join(LOG_DIR, f'process_{time.strftime("%Y%m%d_%H%M%S")}.log')), logging.StreamHandler() ] ) logger = logging.getLogger(__name__) def ensure_directories(): """确保输入、输出和日志目录存在""" Path(INPUT_DIR).mkdir(parents=True, exist_ok=True) Path(OUTPUT_DIR).mkdir(parents=True, exist_ok=True) Path(LOG_DIR).mkdir(parents=True, exist_ok=True) def main(): ensure_directories() input_path = Path(INPUT_DIR) # 获取所有支持的图片文件，这里以常见格式为例 image_files = list(input_path.glob("*.jpg")) + list(input_path.glob("*.jpeg")) + \ list(input_path.glob("*.png")) + list(input_path.glob("*.webp")) if not image_files: logger.warning(f"在 {INPUT_DIR} 目录下未找到任何图片文件。") return logger.info(f"找到 {len(image_files)} 个待处理图片文件。") with sync_playwright() as p: # 启动浏览器，headless=False在调试时可设为True查看界面 browser = p.chromium.launch(headless=True, slow_mo=100) # slow_mo让操作变慢，便于观察 context = browser.new_context( viewport={'width': 1920, 'height': 1080}, # 可以设置用户代理，模拟更真实的浏览器 user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36' ) page = context.new_page() try: logger.info(f"正在访问 {IMAGESTOOL_URL}") page.goto(IMAGESTOOL_URL) page.wait_for_load_state('networkidle') # 等待网络空闲 time.sleep(2) # 额外等待，确保页面JS完全加载 # 核心处理循环 for idx, img_path in enumerate(image_files, 1): process_single_image(page, img_path, idx, len(image_files)) except Exception as e: logger.error(f"主流程发生错误: {e}", exc_info=True) finally: # 所有任务完成后，等待一会儿再关闭浏览器 time.sleep(3) browser.close() logger.info("所有任务处理完成，浏览器已关闭。")
4.2 单张图片处理流程封装
将处理单张图片的逻辑封装成函数process_single_image，这样结构更清晰，也便于错误处理和重试。
def process_single_image(page, img_path, current_index, total_count): """处理单张图片的完整流程""" filename = img_path.name logger.info(f"[{current_index}/{total_count}] 开始处理: {filename}") try: # 1. 上传图片 logger.debug(f" 正在上传文件...") # 等待上传输入框可见并可交互 page.wait_for_selector(UPLOAD_BUTTON_SELECTOR, state="visible") # 设置文件路径，Playwright会模拟文件选择对话框 page.set_input_files(UPLOAD_BUTTON_SELECTOR, str(img_path)) logger.debug(f" 文件上传成功。") # 等待文件上传完成，网站可能会有预览图加载 page.wait_for_load_state('networkidle') time.sleep(1.5) # 给网站一些时间处理预览 # 2. 设置输出格式为AVIF logger.debug(f" 正在设置输出格式...") # 有些网站是下拉框，有些是按钮组。这里假设是下拉框。 page.select_option(FORMAT_DROPDOWN_SELECTOR, value='avif') # value需要根据网站实际值调整 time.sleep(0.5) # 等待格式切换可能触发的UI更新 # 3. 设置压缩质量（可选） # 如果网站有质量滑块，我们可以设置一个值，比如75（0-100范围） # 先检查元素是否存在 if page.locator(QUALITY_SLIDER_SELECTOR).count() > 0: logger.debug(f" 正在设置压缩质量...") # 方法1：直接设置value属性（如果滑块是input） page.eval_on_selector(QUALITY_SLIDER_SELECTOR, 'el => el.value = 75') # 方法2：触发input事件让网站响应变化 page.dispatch_event(QUALITY_SLIDER_SELECTOR, 'input') time.sleep(0.3) # 4. 点击转换按钮 logger.debug(f" 正在启动转换...") convert_btn = page.locator(CONVERT_BUTTON_SELECTOR) convert_btn.click() # 5. 等待转换完成 logger.debug(f" 等待转换完成...") # 策略：等待下载链接出现，或者等待某个表示完成的元素出现 # 这里我们等待下载链接出现，最多等待30秒 page.wait_for_selector(DOWNLOAD_LINK_SELECTOR, state="visible", timeout=30000) logger.debug(f" 转换完成。") # 6. 处理下载 logger.debug(f" 正在处理下载...") # 监听下载事件 with page.expect_download() as download_info: # 点击下载链接 page.click(DOWNLOAD_LINK_SELECTOR) download = download_info.value # 建议保存的文件名，可以基于原文件名修改后缀 suggested_filename = download.suggested_filename # 如果网站生成的名字不好，我们可以自己定义 output_filename = f"{img_path.stem}.avif" output_path = Path(OUTPUT_DIR) / output_filename # 保存文件到指定目录 download.save_as(output_path) logger.info(f"[{current_index}/{total_count}] 处理成功: {filename} -> {output_filename} (大小: {output_path.stat().st_size / 1024:.2f} KB)") # 7. 为下一张图片做准备：刷新页面或点击“新转换”按钮 # 不同网站逻辑不同。有的可以重复使用当前页面元素，有的需要刷新。 # 这里假设网站有一个“Clear”或“New Conversion”按钮 clear_btn = page.locator('button:has-text("Clear"), button:has-text("New")') if clear_btn.count() > 0: clear_btn.click() page.wait_for_load_state('networkidle') time.sleep(1) else: # 如果没有明确的清除按钮，刷新页面是最稳妥的 page.reload() page.wait_for_load_state('networkidle') time.sleep(2) except PlaywrightTimeoutError as e: logger.error(f"[{current_index}/{total_count}] 处理超时: {filename}。错误: {e}") # 可以在这里加入重试逻辑，或者记录失败文件，稍后手动处理 # 刷新页面，尝试恢复状态 page.reload() time.sleep(3) except Exception as e: logger.error(f"[{current_index}/{total_count}] 处理失败: {filename}。错误: {e}", exc_info=True) page.reload() time.sleep(3)
4.3 高级技巧：网络监听与智能等待
上面的基础流程在网站稳定时工作良好，但为了更健壮，我们可以利用Playwright更高级的功能。
网络监听：有时下载不是通过点击链接，而是页面转换完成后自动触发一个文件下载请求。我们可以监听特定的网络响应。
def setup_download_listener(page, output_dir): """设置下载监听，用于处理自动触发的下载""" def handle_response(response): # 检查响应头，判断是否是我们要的AVIF文件 content_type = response.headers.get('content-type', '') content_disposition = response.headers.get('content-disposition', '') if 'image/avif' in content_type or 'attachment' in content_disposition: # 这是一个文件下载响应 logger.debug(f"拦截到文件下载响应: {response.url}") # 这里可以手动读取响应体并保存文件，但更推荐用expect_download # 对于自动下载，通常expect_download事件仍会触发 pass page.on('response', handle_response)
智能等待策略：不要一味地用time.sleep，而是结合Playwright的等待条件。
# 更好的等待转换完成的方式：结合多种条件 def wait_for_conversion(page): """等待图片转换完成的综合策略""" # 条件1：等待下载链接出现 # 条件2：等待表示“转换中”的loading图标消失 # 条件3：等待某个表示成功的文本出现，如“Conversion completed!” try: page.wait_for_selector(DOWNLOAD_LINK_SELECTOR, state='visible', timeout=45000) # 同时确保loading状态消失 loading_selector = '.spinner, .loading, [aria-busy="true"]' page.wait_for_selector(loading_selector, state='hidden', timeout=10000) return True except PlaywrightTimeoutError: logger.warning("等待转换完成超时，尝试检查页面状态...") # 可以截图保存当前页面状态，用于调试 page.screenshot(path=f'./logs/timeout_{int(time.time())}.png') return False
5. 参数调优、错误处理与性能考量
脚本能跑起来只是第一步，要让它稳定、高效地处理成百上千的图片，还需要在细节上下功夫。
5.1 AVIF压缩参数的选择
在线工具通常提供的参数是“质量”（Quality），范围0-100。这个值并非线性，需要一些经验：
高保真（网页展示）：建议设置在75-85之间。这个区间能在肉眼几乎无法察觉画质损失的情况下，获得显著的压缩比。对于摄影作品或需要精细细节的图片，可以从80开始尝试。
平衡体积与画质（缩略图、背景图）：设置在60-75之间。会有轻微的画质损失，但在小尺寸或快速浏览场景下完全可以接受。
极限压缩：低于50。画质损失会比较明显，可能出现色块和模糊，仅适用于对体积极度敏感且画质要求不高的场景。
在脚本中，我们可以通过修改config.py中的TARGET_QUALITY变量，或者为不同类型的图片（根据尺寸、用途）动态设置不同的质量值。
5.2 健壮的错误处理机制
批量处理中最怕的就是一个错误导致整个流程中断。我们必须建立完善的错误处理与恢复机制。
单个任务失败不影响整体：process_single_image函数已经用try...except包裹，任何单张图片的处理失败都会记录日志，然后脚本会尝试恢复页面状态（刷新），继续处理下一张。
失败重试：对于网络超时等临时性错误，可以加入重试逻辑。
max_retries = 2 for retry in range(max_retries + 1): try: # ... 处理逻辑 ... break # 成功则跳出重试循环 except (PlaywrightTimeoutError, ConnectionError) as e: if retry < max_retries: logger.warning(f"第{retry+1}次尝试失败，进行第{retry+2}次重试...") page.reload() time.sleep(5 * (retry + 1)) # 重试等待时间递增 else: logger.error(f"重试{max_retries}次后仍失败，放弃处理该图片。") raise
状态检查与恢复：在关键操作前（如点击按钮），检查元素是否处于可交互状态（is_enabled）。在每张图片处理前后，可以检查页面URL或关键元素，确保处于正确的初始状态。
详尽的日志记录：日志不仅要记录成功和失败，还要记录关键步骤的耗时、文件大小变化等。这有助于事后分析和优化。
5.3 性能优化与资源管理
处理大量图片时，性能问题会凸显。
浏览器实例复用：我们的脚本在整个批处理过程中只启动和关闭一次浏览器，这比每处理一张图片就开闭一次浏览器效率高得多。
并行处理探索：Playwright支持多个浏览器上下文（Context）甚至多个页面（Page）同时运行。理论上，我们可以在一个浏览器实例内打开多个标签页，同时处理多张图片。但是，对于操作同一个在线工具网站，这需要极其谨慎：
会话冲突：多个标签页可能共享Cookie和LocalStorage，导致操作互相干扰。
服务器压力：同时发起多个转换请求，可能触发网站的限流或反爬机制。
复杂度：错误处理和状态同步会变得非常复杂。因此，对于公开的免费在线工具，强烈建议采用串行处理，并在每个任务间添加合理的延迟（如time.sleep(2)），以示友好，避免IP被封锁。
内存与缓存清理：长时间运行后，浏览器可能会积累内存。可以在处理一定数量（比如50张）图片后，关闭当前页面（page.close()）并重新打开一个新页面（context.new_page()），或者直接重启浏览器上下文。
处理速度预估：根据我的测试，受网络速度和网站处理速度影响，单张图片从上传到下载完成，大约需要10-20秒。处理1000张图片可能需要3-6个小时。脚本可以增加一个简单的进度提示和剩余时间预估功能。
6. 常见问题排查与实战技巧
在实际运行中，你肯定会遇到各种各样的问题。这里我整理了一份“踩坑实录”和解决方案。
6.1 元素选择器失效
这是最常见的问题，网站前端稍微一改版，脚本就“瞎”了。
症状：wait_for_selector超时，或者click时找不到元素。
排查：
将launch(headless=True)改为headless=False，亲眼看看脚本运行到哪一步卡住了，页面是否如预期加载。
在出错的地方，用page.screenshot(path='debug.png')和page.content()保存页面截图和HTML源码，分析当前页面结构。
检查选择器是否唯一。在浏览器控制台用document.querySelectorAll('你的选择器')验证。
解决：
使用更稳健的选择器：优先用id、name、>selectors = ['button.convert-btn', 'button:has-text("Start Conversion")', 'xpath=//form//button[@type="submit"]'] for selector in selectors: if page.locator(selector).count() > 0: page.click(selector) break else: raise Exception("找不到转换按钮")
6.2 文件上传失败
症状：set_input_files后页面无反应，没有出现图片预览。
排查：有些网站的文件上传区域是复杂的组件，真正的<input type="file">可能被隐藏或动态生成。
解决：
尝试直接点击触发文件选择对话框的元素（通常是一个<div>或<label>），然后再用set_input_files。
# 先点击上传区域 page.click('.upload-area') # 再设置文件（此时文件输入框可能已出现） page.set_input_files('input[type="file"]', file_path)
如果网站使用JavaScript库（如Dropzone.js），可能需要触发特定的事件。可以尝试在设置文件后，手动触发一个change事件：page.dispatch_event('input[type="file"]', 'change')。
6.3 下载被拦截或文件名乱码
症状：expect_download没有触发，或者下载的文件名是一串乱码。
排查：浏览器可能设置了“下载前询问每个文件的保存位置”，或者网站返回的Content-Disposition头不正确。
解决：
配置浏览器上下文自动接受下载：
context = browser.new_context( accept_downloads=True, # 自动接受下载 viewport={'width': 1920, 'height': 1080} )
处理下载文件名：优先使用download.suggested_filename，如果它不合理（如乱码或通用名），就用我们自定义的文件名逻辑。
监听下载事件失败：如果点击后没有触发download事件，可能是网站通过新窗口或直接数据流返回文件。这时需要监听网络响应，并手动读取响应体保存，但这更复杂。
6.4 网站反自动化检测
症状：脚本运行几次后，网站返回验证码、拒绝服务，或页面行为异常。
解决：
降低请求频率：在每张图片处理之间增加随机延迟，time.sleep(random.uniform(2, 5))，模拟人类操作的不确定性。
模拟更真实的行为：在操作前随机移动鼠标page.mouse.move(x, y)，或在输入前增加短暂的延迟。
使用更真实的浏览器上下文：设置完整的user_agent，视窗大小，甚至加载一些常见的浏览器扩展信息（通过context.add_init_script注入）。
轮换IP地址（高级）：如果处理量极大，可以考虑使用代理IP池。但这通常超出了个人项目的范畴，且需谨慎评估法律和道德风险。
6.5 内存泄漏与进程卡死
症状：脚本运行一段时间后，速度变慢，最终卡死或无响应。
排查：长时间运行Playwright脚本，如果页面未正确关闭或资源未释放，可能导致内存累积。
解决：
定期清理。每处理N张图片后，关闭当前页面并新建一个。
if current_index % 50 == 0: logger.info("处理50张图片，清理页面释放内存...") page.close() page = context.new_page() page.goto(IMAGESTOOL_URL) page.wait_for_load_state('networkidle')
确保所有打开的弹出页（popup）都被正确关闭。
最终脚本退出时，确保调用browser.close()。
7. 脚本扩展与进阶应用
基础版本已经能解决大部分问题，但我们可以让它变得更强大、更智能。
7.1 集成到自动化工作流（如n8n）
这个脚本本身是一个独立的Python程序。你可以很容易地把它集成到更大的自动化工作流中，比如使用n8n、Zapier或Make。
作为命令行工具：将脚本改造成接受命令行参数，如输入目录、输出目录、质量参数等。这样，n8n的“执行命令”节点就可以调用它。
# 使用argparse解析命令行参数 import argparse parser = argparse.ArgumentParser(description='批量转换图片为AVIF') parser.add_argument('--input', '-i', default='./input', help='输入目录') parser.add_argument('--output', '-o', default='./output', help='输出目录') parser.add_argument('--quality', '-q', type=int, default=75, help='AVIF质量 (0-100)') args = parser.parse_args() # 然后在脚本中使用 args.input, args.output, args.quality
作为API服务：使用Flask或FastAPI将脚本包装成一个简单的HTTP API。n8n可以通过HTTP请求节点触发转换任务，并接收处理结果。这对于需要从云端触发处理的场景非常有用。
7.2 添加元数据保留功能
AVIF格式支持保留EXIF、XMP等元数据（如拍摄日期、相机型号、GPS位置）。但并非所有在线转换工具都默认保留。
需求分析：如果你需要保留元数据，首先需要确认ImagesTool是否有相关选项（通常是一个“保留元数据”的复选框）。在脚本中，找到并勾选这个选项。
备选方案：如果在线工具不支持，一个更专业的本地方案是使用libavif的编码器（通过pyavif库）或ImageMagick。这需要本地安装复杂的依赖，但控制粒度更细，可以确保元数据无损转换。这可以作为在线方案失效时的后备计划。
7.3 结果校验与报告生成
处理完成后，你肯定想知道效果如何。
生成处理报告：在脚本最后，遍历输出文件夹，统计处理成功的文件数、失败的文件数、总耗时，并计算平均压缩率。
import pandas as pd report_data = [] for img_in, img_out in processed_pairs: # 需要记录原始和输出文件的对应关系 size_in = img_in.stat().st_size size_out = img_out.stat().st_size compression_ratio = (size_in - size_out) / size_in * 100 report_data.append({ '文件名': img_in.name, '原始大小(KB)': round(size_in/1024, 2), 'AVIF大小(KB)': round(size_out/1024, 2), '压缩率(%)': round(compression_ratio, 2), '状态': '成功' }) df = pd.DataFrame(report_data) df.to_csv('./logs/processing_report.csv', index=False) logger.info(f"\n处理报告已生成:\n{df.describe()}")
视觉对比：对于重要的图片，可以写一个简单的HTML页面，将原图和AVIF图并排显示，方便肉眼对比画质损失。
7.4 监控与通知
对于长时间运行的任务，你不可能一直守着终端。
桌面通知：使用plyer或win10toast库，在任务开始、结束或出错时发送桌面通知。
邮件/消息通知：任务完成后，通过SMTP发送邮件，或调用企业微信、钉钉、Slack的Webhook，将处理报告发送给你。
整个项目从构思到实现，最深的体会是：自动化不是为了炫技，而是为了将人从重复、枯燥的劳动中解放出来。这个脚本一次性编写和调试可能需要几个小时，但它能为你未来节省数十甚至数百小时。更重要的是，它提供了一个可复用的模式——任何有规律、重复性的在线操作，都可以尝试用Playwright这样的工具将其自动化。下次当你面对一个需要重复点击的网页任务时，不妨先停下来想想：“能不能写个脚本让它自己跑？”