尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

CogAgent

CogAgent
📅 发布时间:2026/6/23 0:05:39

CogAgent(Visual Language Model for GUI Agents / 用于图形用户界面智能体的视觉语言模型)。


一、CogAgent 是什么?

CogAgent​ 是由清华大学 KEG 实验室 & 智谱AI (Zhipu AI)​ 提出的开源Vision-Language Model (VLM,视觉语言模型),专门设计用来看懂 GUI 截图并操控界面,是典型的GUI Agent(图形用户界面智能体)。

  • 输入:GUI 截图 (Screenshot / GUI Image)​ +用户自然语言指令 (Natural Language Instruction)

  • 输出:下一步操作 (Next Action)​ +操作坐标 (Bounding Box / Coordinates)​ + 可选推理说明

💡 与传统 LLM-based Agent 不同,CogAgent不看 HTML/DOM,而是像人一样直接"看"屏幕截图来做决策。


二、核心能力 (Core Capabilities)

能力

英文

说明

视觉问答

Visual Question Answering (VQA)

回答截图相关问题,如"这个窗口标题是什么?"

视觉定位

Visual Grounding

找出界面元素位置(返回 bbox 坐标)

GUI 导航

GUI Navigation / Agent

预测点击、输入、滑动等操作及坐标

高分辨率理解

High-Resolution Image Understanding

支持1120×1120​ 像素输入,看清小图标/文字


三、模型架构 (Architecture)

CogAgent 基于CogVLM (Visual Language Model)​ 扩展而来:

双分辨率视觉编码器 (Dual-Resolution Vision Encoder)

  • 低分辨率分支 (Low-Resolution Branch):EVA2-CLIP-E,处理 224×224 —— 捕捉全局语义

  • 高分辨率分支 (High-Resolution Branch):EVA2-CLIP-L(≈0.3B 参数),处理1120×1120​ —— 看清细字和小图标

高分辨率交叉注意力模块 (High-Resolution Cross-Attention Module)

  • 高分辨率特征通过Cross-Attention(交叉注意力)​ 注入语言解码器 (Decoder) 每层

  • 隐藏维度 (Hidden Size) 仅 1024(低于 Decoder 的 4096),控制计算量

  • 避免了直接拉高分辨率导致 Self-Attention 的O(n²) 二次方爆炸

✅ 结果:1120×1120 输入的 CogAgent 前向计算量甚至低于​ 490×490 的 CogVLM。

参数规模

  • 初代 CogAgent-18B:Vision Encoder ≈11B + Language Model ≈7B

  • 新版CogAgent-9B-20241220:基于GLM-4V-9B​ 微调,更强泛化,支持中英文 GUI


四、训练数据与阶段 (Training)

  1. 预训练 (Pre-training)

    • 文本识别数据 (OCR / synthetic text rendering)

    • 视觉定位数据 (Visual Grounding / REC & REG)

    • GUI 截图 + DOM 对应数据(CCS400K 网页数据集)

  2. 多任务微调 (Multi-task Fine-tuning)

    • VQA 数据集 + GUI Agent 数据集(Mind2Web、AITW 等)

    • 格式化为 QA 对让模型学会"看截图→说操作"


五、典型工作流程 (Pipeline)

用户指令("帮我在GitHub给CogVLM点Star") ↓ [GUI Screenshot + Text Prompt] → CogAgent ↓ 输出: - Status(当前状态):页面显示仓库主页 - Plan(计划):找到右上角 Star 按钮并点击 - Action(动作描述):Click the "Star" button - Grounded Operation(结构化操作):CLICK @ (x, y) bbox ↓ 自动化工具执行点击 → 截新图 → 循环

六、性能亮点 (Benchmark Results)

  • GUI Agent:Mind2Web(网页)、AITW(Android)大幅超越仅用 LLM+HTML 的 Agent

  • VQA:VQAv2、DocVQA、TextVQA 等多个榜单达 SOTA(同期通用 VLM 第一)


七、关键术语中英对照

英文

中文

备注

Vision-Language Model (VLM)

视觉语言模型

图文联合理解的基座模型

GUI Agent

图形用户界面智能体

自动操作桌面/手机/网页的 Agent

Visual Grounding

视觉定位

根据描述找图中物体坐标(bbox)

Bounding Box (bbox)

边界框

矩形框 (x1,y1,x2,y2) 标出目标位置

Cross-Attention

交叉注意力

让文本 Query 去 attend 图像 Key/Value

Self-Attention

自注意力

Transformer 内部同序列相互注意

Fine-tuning / SFT

微调 / 监督微调

用任务数据调整预训练权重

OCR (Optical Character Recognition)

光学字符识别

从图像中识别文字


八、资源链接

  • 📄 论文:[2312.08914] CogAgent: A Visual Language Model for GUI Agents

  • 💻 GitHub:GitHub - zai-org/CogAgent: An open-sourced end-to-end VLM-based GUI Agent · GitHub(含 CogVLM 早期版也在该仓)

  • 🤗 HuggingFace:THUDM/cogagent-chat-hf、THUDM/cogagent-9b-20241220

  • 🖥 硬件:INT4 量化推理约需≥24GB 显存(如 RTX 3090/A5000/A100)


相关新闻

  • 深入解析NXP Kinetis TSIv4电容触摸驱动:从原理到实战配置
  • NVBench:首个双语非言语发声语音合成评测基准详解与实践
  • 2026年 系统窗厂家/品牌推荐榜单:隔音系统窗+高端系统门窗的核心优势与选购指南 - 品牌发掘

最新新闻

  • 华三BGP等价路由组网
  • 基于大语言模型的多智能体框架在翼型设计与风险评估中的应用实践
  • 2026年当前江西有实力的GEO品牌公司市场格局与核心服务商深度解析 - 品牌鉴赏官2026
  • 使用Valgrind分析“内存释放报错”的问题
  • 上海婚姻纠纷律所联系方式推荐 专业承接各类婚姻家事案件 - 外贸老黄
  • 基于贝叶斯校准与自增强反馈的LLM关系数据生成框架RDDG实践

日新闻

  • Arduino-ESP32项目深度解析:解锁隐藏芯片支持与架构演进
  • 2026年 系统窗厂家/品牌推荐榜单:隔音系统窗+高端系统门窗的核心优势与选购指南 - 品牌发掘
  • NVBench:首个双语非言语发声语音合成评测基准详解与实践

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号