摘要
2026年6月24日,谷歌宣布将Computer Use能力原生集成至Gemini 3.5 Flash模型,彻底淘汰此前独立的Gemini 2.5 Computer Use测试框架。这一更新使AI Agent无需复杂代码即可"看懂屏幕、操控浏览器与桌面软件",真正成为能自主处理重复工作的数字助手。谷歌同步上线Browserbase在线演示平台,Chrome 149稳定版新增屏幕拾取快捷功能,并从安全层面部署了对抗训练防御模型与两套企业安全方案。这意味着AI Agent的"手"正式长出来了——从"只能对话"进化到"能看会做"。
核心结论:Computer Use原生集成是AI Agent发展的里程碑事件——它将Agent的交互界面从API和文本拓展到了图形用户界面(GUI),使AI能操作任何人类可用的软件而无需专用接口。这是AI从"工具"升级为"操作者"的关键一步。
一、什么是Computer Use?为什么它是Agent的"手"?
1.1 核心概念
Computer Use是一种让AI模型直接理解和操作计算机界面的能力。传统AI Agent通过API(如Function Calling、MCP协议)与外部工具交互——这要求每个目标软件都提供标准化的编程接口。而Computer Use直接绕过了这个限制:AI通过"看屏幕→理解界面→模拟人类操作"来完成任何软件任务。
Google在官方博客中这样描述:“Gemini already excels at function calling and using built-in tools like Search and Maps grounding. With built-in computer use capability, developers can now use 3.5 Flash to reliably build custom agents that can see, reason and take action across browser, mobile and desktop environments.”
1.2 从Gemini 2.5独立模型到3.5 Flash原生集成的进化
| 对比维度 | Gemini 2.5 Computer Use(旧) | Gemini 3.5 Flash Computer Use(新) |
|---|---|---|
| 形态 | 独立专用模型 | 内置工具(built-in tool) |
| 模型基座 | Gemini 2.5(已淘汰) | Gemini 3.5 Flash(主力模型) |
| 性能基准 | ~40%任务成功率 | ~68%任务成功率(+70%) |
| 推理速度 | ~45 tokens/s | ~280 tokens/s(+523%) |
| 成本 | 独立API调用 | 与文本调用统一计费 |
| 适用场景 | 仅浏览器操作 | 浏览器+移动端+桌面三端 |
数据来源:Google AI官方博客(2026-06-24)、Google Gemini API Changelog(2026-06-25)
二、技术架构:屏幕→理解→动作
2.1 三层执行架构
┌─────────────────────────────────────────────┐ │ 应用层(Agent定义) │ │ 开发者定义任务目标、操作范围、安全策略 │ ├─────────────────────────────────────────────┤ │ Computer Use 内置工具 │ │ ┌─────────┐ ┌──────────┐ ┌─────────────┐ │ │ │ 屏幕感知 │→│ 意图理解 │→│ 动作执行 │ │ │ │ 截屏→视觉│ │ 理解UI元 │ │ 点击/输入/ │ │ │ │ 嵌入→DOM│ │ 素→任务规 │ │ 滚动/切换 │ │ │ │ 解析 │ │ 划 │ │ 窗口 │ │ │ └─────────┘ └──────────┘ └─────────────┘ │ ├─────────────────────────────────────────────┤ │ Gemini 3.5 Flash 基座 │ │ 280+ tokens/s · 150万Token上下文 │ └─────────────────────────────────────────────┘屏幕感知层:对目标界面进行截屏,通过视觉编码器提取UI元素(按钮、输入框、文本区域、图标等)及其空间关系,同时解析DOM结构获取可访问性元数据。
意图理解层:将自然语言任务目标转化为结构化的操作序列。例如"帮我在Google Sheets里汇总Q2销售数据"会被拆解为:打开Google Sheets → 定位Q2工作表 → 提取数据列 → 计算汇总 → 写入结果单元格。
动作执行层:通过简化的Intents动作原语执行具体操作——click、type、scroll、drag、wait、screenshot等,屏蔽不同操作系统和浏览器的底层差异。
2.2 简化的Intents动作原语
Google为Computer Use设计了一套高层动作原语(Intents),避免Agent直接操作底层DOM或OS API带来的复杂性和安全风险:
# Gemini 3.5 Flash Computer Use 动作示例fromgoogleimportgenai client=genai.Client()response=client.models.generate_content(model="gemini-3.5-flash",contents="帮我在这个网页上找到'登录'按钮并点击",tools=[{"computer_use":{"display":{"width":1920,"height":1080},"environment":"browser"# browser | mobile | desktop}}])# 模型返回结构化动作序列(简化示意):# 1. screenshot → 识别到右上角"登录"按钮 (坐标: 1680, 25)# 2. click → target=(1680, 25)# 3. wait → 等待登录弹窗出现# 4. type → target=email_input, value="user@example.com"关键设计理念:Intents层的抽象使得同一套Agent代码可以在Chrome、Safari、移动端WebView甚至桌面应用上运行,无需为每个平台单独适配。
三、安全机制:对抗训练+双重企业防护
3.1 对抗训练防御指令注入
Computer Use最大的安全风险是间接指令注入(Indirect Prompt Injection)——恶意网页在DOM中嵌入隐藏指令,诱骗AI Agent执行非预期操作。
Google的应对方案是针对性对抗训练(Targeted Adversarial Training):
- 在训练阶段注入大量恶意指令样本(包括隐藏文本、CSS伪元素、JavaScript动态注入等)
- 训练模型识别并忽略非用户意图的页面内容
- 配套发布Best Practices文档,建议开发者在沙箱环境中运行Agent
3.2 双重企业安全方案
Google同步发布了两套可选的企业安全防护系统:
| 安全方案 | 功能 | 适用场景 |
|---|---|---|
| 人工确认机制 | 敏感操作(删除文件、提交支付、发送邮件)需要人工明确确认 | 金融、医疗、法律等高风险行业 |
| 异常冻结机制 | 检测到间接指令注入时自动停止任务 | 大规模自动化测试、批量数据处理 |
“Defense-in-depth”(纵深防御)是Google推荐的最佳实践:组合使用对抗训练模型 + 人工确认 + 安全沙箱 + 严格访问控制。
四、Chrome 149协同更新:屏幕拾取快捷功能
Google同步推送了Chrome 149稳定版,新增"屏幕拾取"(Screen Pick)快捷功能:
- 框选即分析:在网页上框选任意区域的文字或图片,一键喂给Gemini生成问答、总结内容
- 节省90%操作步骤:无需复制→切换窗口→粘贴→提问,全程在浏览器内完成
- 上下文感知:拾取内容会自动携带当前页面URL和标题作为上下文,提升回答准确性
这一功能看似简单,实际上是为Computer Use的普及做用户体验铺垫——让用户先习惯"AI直接操作网页内容"的交互范式。
五、行业影响:三端打通意味着什么?
5.1 软件测试领域将首先被颠覆
传统端到端测试(E2E Testing)依赖Selenium、Playwright等框架编写固定脚本。Computer Use使无需编写测试脚本的自主探索式测试成为可能:
- AI Agent自动遍历应用的所有页面和功能
- 发现UI异常、响应错误、布局错位等问题
- 生成人类可读的测试报告
Google已确认多家企业客户在内部使用Computer Use进行持续软件测试,测试覆盖率提升3-5倍。
5.2 RPA(机器人流程自动化)行业面临重塑
传统RPA工具(UiPath、Automation Anywhere等)依赖手动录制的操作流程,维护成本高。Computer Use提供了更灵活的替代方案:
- 零录制:自然语言描述任务即可
- 自愈能力:UI变化时自动适应(传统RPA脚本UI微小变化就崩溃)
- 跨应用操作:可同时操作浏览器+桌面应用+移动端
5.3 AI Agent能力矩阵补齐最后一块短板
| Agent能力维度 | 2025年状态 | 2026年6月状态 |
|---|---|---|
| 语言理解与推理 | ✅ 成熟 | ✅ 成熟 |
| 工具调用(API/MCP) | ✅ 成熟 | ✅ 成熟 |
| 记忆与上下文 | ⚠️ 发展中 | ✅ Claude Tag/Conway |
| 多模态感知 | ⚠️ 基础 | ✅ GPT-5.6/Gemini |
| 计算机操作 | ❌ 缺失 | ✅Gemini 3.5 Flash Computer Use |
Computer Use补齐了Agent能力矩阵的最后一块短板——AI终于能像人类一样操作任何软件。
六、FAQ
Q1:Computer Use和传统RPA有什么区别?
A:传统RPA需要人工录制固定操作流程,UI变化时脚本容易崩溃;Computer Use是AI"看懂"屏幕后自主规划操作,适应UI变化的能力更强。但Computer Use目前的操作精度(~68%任务成功率)仍低于精心维护的RPA脚本(95%+),短期内两者是互补关系。
Q2:Computer Use会取代API集成吗?
A:不会。API集成效率更高、成本更低、可靠性更强。Computer Use适用于没有API的遗留系统、第三方网站、需要跨应用操作的场景。API集成和Computer Use是互补关系,不是替代关系。
Q3:安全风险有多大?如何在企业环境中使用?
A:Google已部署对抗训练防御间接指令注入,并提供了双重企业安全方案(人工确认+异常冻结)。建议企业:(1) 在隔离沙箱中运行Agent;(2) 不给Agent财务/删除等敏感权限;(3) 保留完整的操作日志用于审计。
Q4:成本如何?比人工操作便宜吗?
A:Gemini 3.5 Flash的API价格为输入$0.075/1M tokens、输出$0.30/1M tokens。一次典型网页操作(截图+理解+动作)约消耗500-2000 tokens,成本约$0.0002-0.0006。批量自动化任务成本远低于人工,但复杂长流程任务的Token消耗可能显著增加。
Q5:中国用户可以使用吗?
A:Gemini API需要通过Google Cloud访问,中国大陆用户需使用合规的云服务通道。但技术方向上,国内厂商正在跟进——字节豆包2.1 Pro、智谱GLM-5.2都已具备多模态理解能力,Computer Use功能的本地化版本值得期待。
参考资料
- Google AI官方博客(2026-06-24). “Introducing computer use in Gemini 3.5 Flash”
- Google Gemini API Changelog(2026-06-25). “Release Notes: Computer Use Public Preview”
- 至顶网(2026-06-25). “Gemini 3.5 Flash正式推出内置电脑操作功能”
- IC.Work(2026-06-25). “Gemini 3.5 Flash内置computer use:Google的Agent进化路线图”
- Android Headlines(2026-06-25). “Gemini 3.5 Flash Gains Native Computer Use Tool”
- AITOP100(2026-06-25). “每日AI资讯:Gemini 3.5 Flash内置电脑操作能力”
- Browserbase(2026-06-24). “Gemini Computer Use Demo Environment”