Browser Use — AI驱动浏览器自动化的全新范式
什么是 Browser Use?
Browser Use 是一个开源的浏览器自动化工具生态,核心项目包括browser-harness—— 一个轻量级、可编辑的 CDP (Chrome DevTools Protocol) 控制层,让 AI 能够直接操控你的真实 Chrome 浏览器。
它的设计理念是:“你将永远不再亲自操作浏览器”。AI 代理通过截图、坐标点击和 JS 执行来操控页面,仿佛给浏览器装上了眼睛和双手。
为什么选择 Browser Use?
1. 极简架构
核心代码只有约 1000 行,分布在 4 个文件中。没有冗余的抽象层、重试框架或复杂配置。
2. 截图优先的交互模式
传统自动化工具(Selenium/Playwright)要求你找到选择器才能点击。Browser Harness 反其道而行之:
- 先截图→ 看像素坐标
- 坐标点击
click_at_xy(x, y)→ 穿透 iframe/阴影 DOM/跨域 - 再截图验证结果
3. 连接真实 Chrome
不需要启动新的浏览器实例。直接连接你正在使用的 Chrome,登录态、Cookie、扩展全部保留。
4. 原始 CDP 能力
可以直接调用任意 Chrome DevTools 协议方法,没有封装损耗。
快速上手
安装
Setup prompt
Set up https://github.com/browser-use/browser-harnessforme. Read`install.md`and follow the steps toinstallbrowser-harness and connect it to my browser.gitclone https://github.com/browser-use/browser-harnesscdbrowser-harness uv toolinstall-e.连接浏览器
- 在 Chrome 地址栏输入
chrome://inspect/#remote-debugging - 勾选 “Allow remote debugging for this browser instance”
- 运行测试:
browser-harness<<'PY' new_tab("https://example.com") wait_for_load() print(page_info()) PY第一个脚本
browser-harness<<'PY'new_tab("https://www.baidu.com")wait_for_load()capture_screenshot("baidu.png")click_at_xy(500,300)wait_for_load()print(page_info())PY主要能力
| 能力 | 说明 |
|---|---|
| 页面导航 | 打开新标签页、切换标签页、跳转 URL |
| 截图识别 | 截取页面截图,通过像素坐标点击 |
| 坐标点击 | click_at_xy(x, y) 穿透 iframe/Shadow DOM |
| JS 执行 | 在页面中运行 JavaScript |
| HTTP 请求 | http_get(url) 直接发请求,不走浏览器 |
| 原始 CDP | 调用任意 Chrome DevTools 协议 |
| 云浏览器 | 连接 Browser Use 云端隔离浏览器 |
设计哲学
Browser Harness 坚持以下原则:
- 坐标点击优先:通过
Input.dispatchMouseEvent在合成层级发送鼠标事件,穿透 iframe/阴影 DOM/跨域限制 - 连接真实浏览器:不启动新实例,直接复用用户的 Chrome
- 核心保持简洁:不添加重试框架、会话管理器、配置系统
- 自我进化:代理在执行中发现缺失的工具函数时,可以直接写入
agent_helpers.py
总结
Browser Use 代表了浏览器自动化的新范式——不再是"找选择器→点击",而是"截图→坐标点击→验证",更接近人类操作浏览器的方式。配合 LLM 的视觉能力,可以处理任何复杂度的 Web 任务。
- GitHub: https://github.com/browser-use/browser-harness
- 官网: https://browser-use.com
这篇介绍博客也是使用了Browser Use完整流程发布的,然后我再进行编辑修改的;
安装到发布文章接近300w token消耗还是挺大的,差不多3毛钱左右
