UI-TARS：引领GUI自动化新纪元的原生智能代理模型-尧图网站建设

📅 发布时间：2026/6/19 7:23:05

在数字化交互日益复杂的今天，图形用户界面（GUI）作为人机交互的核心载体，其自动化操作一直是人工智能领域的重要挑战。传统模块化框架往往依赖预定义的工作流程和人工规则，难以应对多样化、动态化的界面环境。近日，字节跳动团队推出的UI-TARS模型，以其创新的原生GUI代理架构，重新定义了GUI自动化的技术边界。该模型将感知、推理、定位和记忆等关键能力深度整合于单一视觉语言模型（VLM）中，实现了端到端的任务自动化，无需依赖任何预设流程或人工干预。这一突破性进展，不仅在学术领域发表于论文《UI-TARS: Pioneering Automated GUI Interaction with Native Agents》，更通过开源仓库向业界开放了探索可能性（代码仓库地址：https://gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-SFT）。

【免费下载链接】UI-TARS-72B-SFT项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-SFT

突破传统：UI-TARS的架构革新与核心优势

传统GUI自动化方案普遍采用“感知-决策-执行”的分离式架构，各模块间的信息传递效率低，且难以处理界面元素的语义模糊性和布局动态变化。UI-TARS的革命性在于，它将所有核心功能模块——从屏幕内容的视觉感知，到用户意图的逻辑推理，再到界面元素的精确空间定位，乃至长程任务的记忆存储——全部内置于一个统一的VLM框架中。这种“一体化”设计不仅消除了模块间的通信瓶颈，更让模型能够像人类用户一样，通过“看”界面、“懂”语义、“记”历史、“做”决策的连贯思维过程完成复杂任务。

如上图所示，该架构图清晰展示了UI-TARS的内部工作机制：输入层接收屏幕截图与用户指令，经过多模态编码器融合视觉与语言信息后，由核心推理模块生成操作序列，同时通过记忆单元持续追踪任务状态。这一设计充分体现了模型“原生智能”的核心特性，为开发者理解其端到端决策流程提供了直观参考，也为后续技术优化指明了架构层面的改进方向。

全面领先：多维度性能测试验证技术实力

UI-TARS的技术突破并非停留在理论层面，其性能表现通过多项权威评测数据集的严格验证，展现出对现有SOTA模型的全面超越。在感知能力评估中，UI-TARS-72B版本在三大主流评测基准上均刷新纪录：VisualWebBench数据集上达到82.8分，WebSRC数据集上攀升至89.3分，SQAshort数据集上更是取得88.6分的优异成绩。这些数据表明，模型不仅能精准识别按钮、输入框等基础控件，更能理解复杂网页中的语义关系，如表格数据的层级结构、动态加载内容的上下文关联。

在界面元素定位（Grounding）能力的专项测试中，UI-TARS-72B在ScreenSpot Pro数据集上获得38.1的平均分数。这一指标衡量的是模型将自然语言指令（如“点击页面右上角的用户头像”）转化为屏幕坐标的精确性，直接关系到自动化操作的成功率。相较于传统基于XPath或CSS选择器的定位方式，UI-TARS凭借视觉-语言的跨模态对齐能力，对界面缩放、分辨率变化、元素遮挡等场景表现出更强的鲁棒性。

从实验室到真实场景：UI-TARS的全场景能力验证

UI-TARS的价值不仅体现在单项能力的领先，更在于其作为“全能型代理”在实际任务中的综合表现。在离线代理能力评测中，Multimodal Mind2Web数据集从跨任务泛化角度对模型进行了严苛考验。结果显示，UI-TARS-72B在跨任务元素准确率（Cross-Task Ele.Acc）上达到74.7，操作F1值（Cross-Task Op.F1）高达92.5，步骤成功率（Cross-Task Step SR）为68.6。这意味着，即使面对从未见过的网站布局或任务类型，模型仍能通过迁移学习快速适应，展现出类人的“举一反三”能力。

而在更贴近真实用户场景的在线代理评测中，UI-TARS-72B-SFT（经过指令微调的版本）进一步证明了其实用价值。在模拟操作系统环境的OSWorld（Online）测试中，模型在15步任务限制下取得18.8的成绩；在移动应用场景的AndroidWorld（Online）测试中，更是以46.6的高分刷新了该领域的自动化效率纪录。这些数据表明，UI-TARS已具备从桌面端到移动端的全场景适配能力，能够处理包括表单填写、文件管理、应用跳转等在内的多样化日常任务。

横向对比：UI-TARS与SOTA模型的实力差距

为直观展现UI-TARS的技术领先性，团队将其核心性能指标与当前领域内的主流模型进行了全面对比。从跨任务操作F1值到界面元素定位精度，UI-TARS在几乎所有关键维度上均呈现出显著优势，尤其在需要综合运用视觉感知与语义推理的复杂任务中，其领先幅度更为明显。这种全方位的性能压制，不仅印证了一体化架构的优越性，也为GUI自动化技术的未来发展指明了“大模型原生融合”的必然趋势。

如上图所示，对比图表清晰呈现了UI-TARS与前代SOTA模型在多项核心指标上的差距。其中，WebSRC数据集上89.3分的成绩较第二名高出7.2个百分点，AndroidWorld在线测试成绩更是领先第二名近15个百分点。这一技术代差充分体现了UI-TARS在架构设计上的前瞻性，也为行业提供了衡量GUI自动化模型能力的新基准。

未来展望：GUI自动化的技术边界与应用潜力

UI-TARS的问世，不仅标志着GUI自动化从“规则驱动”向“智能原生”的范式转变，更为人机交互领域开辟了新的想象空间。随着模型能力的持续迭代，未来我们或将看到：在办公场景中，AI代理自动完成跨平台数据汇总与报告生成；在智能家居领域，语音指令与GUI操作无缝衔接，实现“说一句话，设备全搞定”；在无障碍服务中，为视障用户提供实时界面导航与操作辅助……

然而，挑战依然存在。当前模型在长时序任务记忆、极端复杂界面的鲁棒性，以及多模态输入（如结合语音、手势）的融合能力上仍有提升空间。但可以确定的是，UI-TARS已经为GUI自动化技术树立了新的里程碑。对于开发者而言，开源仓库的开放意味着可以基于此构建更定制化的自动化工具；对于普通用户，这一技术的成熟将彻底释放双手，让数字交互回归以用户为中心的本质。

【免费下载链接】UI-TARS-72B-SFT项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-SFT

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考