当前位置：首页 > news >正文

Groma：开源区域感知视觉语言模型，实现精准“指哪打哪”的视觉交互

news 2026/5/26 15:19:40

1. 项目概述从“看图说话”到“指哪打哪”的视觉智能新范式如果你最近关注多模态大模型尤其是视觉语言模型VLM的进展可能会发现一个有趣的现象模型越来越“能说会道”但有时却显得“眼高手低”。你给它一张复杂的图表或网页截图它能洋洋洒洒写出一段描述但当你指着图片中的某个特定区域问“这个按钮是干嘛的”或者“把左上角那个图标圈出来”时它可能就懵了。这种“全局理解强局部交互弱”的痛点正是Groma项目试图解决的核心问题。Groma不是一个凭空出现的项目它的诞生背景非常清晰。随着GPT-4V、Gemini等闭源模型展示了强大的视觉理解能力开源社区也在奋力追赶涌现了如LLaVA、Qwen-VL等优秀模型。但这些模型大多专注于提升“看图说话”的通用能力即输入一张图输出一段文本描述或回答一个关于整张图的问题。然而在真实的应用场景中——比如UI自动化测试、文档信息提取、交互式设计评审——我们往往需要更精确的“指哪打哪”能力。用户需要能通过点击、框选或语言描述如“左上角那个红色按钮”来指定图像中的某个区域然后让模型针对这个区域进行理解、分析或操作。这就是区域感知的视觉语言建模也是Groma的立身之本。简单来说Groma是一个开源的、专注于区域级视觉理解与对话的多模态大模型。它不仅能看懂整张图更能精准地理解你指向的任何一个局部并围绕这个局部进行深入对话。你可以把它想象成一个具备“视觉鼠标”的AI助手你点哪里它就分析哪里你圈出什么它就解读什么。这种能力对于需要精细操作和理解的场景至关重要比如从设计稿中提取组件代码、在复杂图表中定位特定数据点或者指导机器人完成基于视觉的抓取任务。这个项目由FoundationVision团队推出其命名“Groma”可能源于古罗马的一种测量仪器寓意着精准的定位与测量这与它的核心功能定位不谋而合。对于开发者、研究者和AI应用构建者而言Groma提供了一个强大的开源基座让我们能够探索和构建下一代更具交互性和实用性的视觉AI应用。2. 核心架构与设计哲学如何教会模型“看重点”Groma的设计并非简单地在现有VLM上打补丁而是从架构层面重新思考了区域感知能力应该如何被建模和集成。其核心思想可以概括为将区域信息作为一种可学习的、与图像和文本平等对齐的“模态”。2.1 区域作为“第一公民”的表示方法传统VLM处理区域任务时通常采用一种“后处理”或“外挂”的方式。例如先让模型生成对全图的描述再通过额外的目标检测模型或提示工程试图将文本描述与图像区域关联起来。这种方法割裂了全局与局部的理解效率低且精度差。Groma采用了一种更本质的方法区域编码。它将一个区域通常由边界框[x_min, y_min, x_max, y_max]表示转化为一种高维的向量表示这个向量能够被模型的视觉编码器和语言模型共同理解。具体实现上Groma很可能借鉴了“区域特征提取”与“位置编码融合”的技术。视觉编码器如CLIP-ViT首先整张图像被送入视觉编码器得到一系列图像块patch的特征。区域特征池化对于给定的边界框模型会定位到该框所覆盖的那些图像块然后通过池化操作如RoIAlign、注意力池化将这些局部块的特征聚合起来形成一个区域视觉特征向量。这个过程确保了模型提取的特征是真正来自于你指定的那个区域而不是整张图的平均或模糊印象。位置编码注入仅仅有视觉特征还不够模型还需要明确知道这个区域在图像中的绝对和相对位置。Groma会将边界框的坐标信息归一化后的通过一个可学习的位置编码层生成区域位置特征向量。特征融合最后将区域视觉特征和区域位置特征融合形成一个统一的、富含语义和位置信息的区域表示。这个表示就和从文本提示词得到的文本表示一样被作为“令牌”输入到后续的大语言模型中进行理解和生成。注意这里的“区域作为令牌”是关键。它意味着在模型的“世界观”里一个被指定的区域和一个单词、一个短语具有相似的地位都是可以引用、讨论和推理的对象。2.2 训练范式的革新从指代消解到区域对话有了强大的区域表示还需要有相应的数据和方法来训练模型使用它。Groma的训练数据构建和任务设计是其成功的另一大支柱。1. 数据构建的“巧劲”收集海量高质量的“图像-区域-对话”数据是极其困难的。Groma团队巧妙地利用了现有资源基于现有数据集的自动化标注对已有的视觉问答VQA、图像描述Caption数据集进行处理。例如对于一个描述“一只猫在沙发上”的标注可以先用开源的目标检测模型检测出“猫”和“沙发”的区域然后将原始描述转化为针对“猫”这个区域的对话如“指着猫的区域问这是什么”。合成数据生成利用强大的文本生成模型如GPT-4和规则模拟出各种针对图像区域的问答对。例如给定一张图和一组检测框让大语言模型生成针对每个框的多种问法“这个物体是什么颜色”、“它的功能是什么”、“它和旁边的物体有什么关系”。重点收集高价值数据对于UI界面、文档、图表等专业领域可能进行针对性的人工标注或利用领域专用工具如网页解析器生成精确的区域标注和问答。2. 多层次的任务设计Groma的训练并非单一任务而是一个多任务学习框架旨在让模型掌握区域理解的方方面面区域指代Referring Expression Comprehension给定一个描述如“左上角的红色图标”让模型预测对应的边界框。这训练了模型从文本到区域的映射能力。区域描述Region Captioning给定一个边界框让模型生成对该区域的描述。这训练了模型从区域到文本的生成能力。区域问答Region-based VQA针对指定区域进行问答。这是Groma的核心能力训练模型结合区域视觉信息和问题文本来生成答案。对话式交互Conversational Interaction在多轮对话中持续引用和更新区域信息。例如用户先问“这个按钮是什么”模型回答后用户接着问“那它旁边的那个呢”。这要求模型在对话历史中维护对多个区域的理解。通过这种“数据任务”的组合拳Groma学会了将区域、图像和文本在同一个语义空间中对齐从而实现了精准的“指哪打哪”。2.3 与同类模型的差异化对比为了更清晰地理解Groma的定位我们可以将其与几个知名的开源VLM进行对比特性/模型LLaVAQwen-VL-ChatGroma核心能力通用图像对话与描述通用图像对话、文档理解、多图推理区域级视觉理解与对话区域交互较弱通常需通过文本描述间接指定支持粗略的区域提及如“左上角”但精度有限核心功能支持精准的边界框输入与输出架构特点简单直接的投影器连接ViT和LLM自定义视觉编码器支持高分辨率区域编码器将区域作为可学习令牌适用场景通用聊天、图像内容解说文档QA、多图分析、内容创作UI/设计分析、图表数据提取、交互式应用、机器人视觉引导输入形式图像文本图像文本可多图图像文本可选区域框输出形式文本回答文本回答文本回答可包含区域引用从上表可以看出Groma在区域感知的精确性和交互性上形成了明显的差异化优势。它不是要取代通用的VLM而是在一个更垂直、更需求明确的方向上做到了极致。3. 实战部署与应用解析让Groma在你的机器上跑起来理论再精彩不如亲手运行一遍。Groma作为开源项目其部署和应用流程相对清晰。下面我将以一个典型的本地部署流程为例结合可能遇到的坑点带你走一遍。3.1 环境准备与模型获取首先你需要一个具备足够显存的GPU环境。Groma的模型参数量通常在7B到13B左右建议至少准备16GB以上的GPU显存如RTX 4090, RTX 3090, V100等。步骤1克隆代码与创建环境# 克隆Groma官方仓库 git clone https://github.com/FoundationVision/Groma.git cd Groma # 创建并激活Python虚拟环境强烈推荐 python -m venv groma_env source groma_env/bin/activate # Linux/macOS # 或 groma_env\Scripts\activate # Windows # 安装依赖包 pip install -r requirements.txt实操心得官方requirements.txt中的PyTorch版本可能与你CUDA驱动不兼容。建议先根据你的CUDA版本通过nvidia-smi查看去 PyTorch官网获取正确的安装命令先安装PyTorch再安装其他依赖。例如pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118。步骤2下载模型权重Groma的模型权重通常发布在Hugging Face Hub上。你需要找到对应的模型卡如FoundationVision/Groma-7B。# 使用huggingface-cli工具登录并下载推荐 pip install huggingface-hub huggingface-cli login # 按照提示输入你的HF token需要在官网申请 # 然后可以在代码中直接通过from_pretrained加载或者使用snapshot_download下载到本地 python -c from huggingface_hub import snapshot_download; snapshot_download(repo_idFoundationVision/Groma-7B, local_dir./model/groma-7b)常见问题1网络问题导致下载慢或失败。解决方案可以尝试使用国内镜像源或者利用一些第三方下载工具。更稳妥的方法是在能稳定访问的环境下先下载到本地再传输到目标服务器。务必核对下载文件的完整性检查文件大小或MD5。3.2 核心推理代码解读与运行Groma提供了简洁的推理API。下面是一个最基本的推理示例我们通过代码来理解其输入输出格式。import torch from PIL import Image from groma.model import GromaModelForCausalLM from groma.conversation import conv_templates from groma.processor import GromaProcessor # 1. 加载模型和处理器 model_path ./model/groma-7b # 本地模型路径 processor GromaProcessor.from_pretrained(model_path) model GromaModelForCausalLM.from_pretrained(model_path, torch_dtypetorch.float16, device_mapauto) model.eval() # 2. 准备输入 # 加载图像 image_path your_image.jpg image Image.open(image_path).convert(RGB) # 定义对话和区域 # 假设我们有一张软件界面截图我们想询问左上角的一个图标 conversation conv_templates[groma].copy() # 使用Groma专用的对话模板 # 用户输入指定区域归一化坐标 [x1, y1, x2, y2]和问题 region [0.05, 0.05, 0.15, 0.15] # 假设这是左上角图标的边界框 question fregion{region}/regionWhat is the function of this icon? conversation.append_message(conversation.roles[0], question) # 用户角色 conversation.append_message(conversation.roles[1], None) # 助手角色等待生成 prompt conversation.get_prompt() # 3. 处理输入并生成 # 处理器会将图像、区域框和文本提示词打包成模型需要的输入格式 inputs processor(textprompt, imagesimage, return_tensorspt) inputs {k: v.to(model.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()} # 生成参数设置 gen_kwargs { max_new_tokens: 512, do_sample: True, # 可以改为False进行贪婪解码速度更快但可能缺乏多样性 temperature: 0.2, top_p: 0.9, } # 开始生成 with torch.no_grad(): outputs model.generate(**inputs, **gen_kwargs) # 解码输出跳过输入部分 input_len inputs[input_ids].shape[1] response_ids outputs[0][input_len:] response processor.tokenizer.decode(response_ids, skip_special_tokensTrue) print(fAssistant: {response})代码关键点解析对话模板conv_templates不同的VLM有不同的对话格式要求如image\n前缀、USER:/ASSISTANT:角色标记。Groma的处理器和模型内部已经处理了这些细节但使用正确的模板至关重要否则模型可能无法理解指令。区域标记region这是Groma理解区域指令的关键。在文本提示中你需要将归一化的边界框坐标用这个特殊的标记包裹起来。处理器会识别这个标记并将其中的坐标信息提取出来与图像特征进行对齐和编码。输入处理processorGromaProcessor是一个多功能组件它负责对图像进行预处理缩放、归一化、分块。对文本进行分词。最关键的一步根据region标记计算区域对应的图像块索引并生成区域的位置编码和视觉特征索引将这些信息整合到模型的输入中。设备映射device_mapauto使用Hugging Face的accelerate库自动将模型层分布到可用的GPU和CPU上对于大模型加载非常方便。3.3 构建一个简单的区域问答演示应用为了更直观地体验我们可以用Gradio快速搭建一个Web演示界面。这个界面允许用户上传图片用鼠标框选区域然后输入问题。import gradio as gr import torch from PIL import Image, ImageDraw import numpy as np # ... 省略上面的模型加载代码假设model和processor已加载 ... def analyze_region(image, rect, question): image: PIL Image rect: 字典包含 x1, y1, x2, y2为像素坐标 question: 用户输入的问题文本 img_width, img_height image.size # 将像素坐标转换为归一化坐标 [x1, y1, x2, y2] norm_region [ rect[x1] / img_width, rect[y1] / img_height, rect[x2] / img_width, rect[y2] / img_height ] # 构建对话 conversation conv_templates[groma].copy() formatted_question fregion{norm_region}/region{question} conversation.append_message(conversation.roles[0], formatted_question) conversation.append_message(conversation.roles[1], None) prompt conversation.get_prompt() # 处理与生成 inputs processor(textprompt, imagesimage, return_tensorspt) inputs {k: v.to(model.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()} with torch.no_grad(): outputs model.generate(**inputs, max_new_tokens256, do_sampleFalse) input_len inputs[input_ids].shape[1] response_ids outputs[0][input_len:] response processor.tokenizer.decode(response_ids, skip_special_tokensTrue) # 在图像上绘制选框可选用于可视化 draw ImageDraw.Draw(image) draw.rectangle([rect[x1], rect[y1], rect[x2], rect[y2]], outlinered, width3) return image, response # 创建Gradio界面 with gr.Blocks() as demo: gr.Markdown(# Groma 区域视觉问答演示) with gr.Row(): with gr.Column(): input_image gr.Image(typepil, label上传图片, toolselect) # 启用选择工具 rect_data gr.State() # 用于存储选框坐标 input_question gr.Textbox(label输入你的问题, placeholder例如这是什么它的功能是什么) submit_btn gr.Button(分析区域) with gr.Column(): output_image gr.Image(typepil, label标注区域) output_answer gr.Textbox(label模型回答) # 获取图片选框坐标 def get_rect(image, evt: gr.SelectData): # evt.index 是 [x1, y1, x2, y2] 格式 return {x1: evt.index[0], y1: evt.index[1], x2: evt.index[2], y2: evt.index[3]} input_image.select(get_rect, [input_image], [rect_data]) # 绑定提交事件 submit_btn.click( fnanalyze_region, inputs[input_image, rect_data, input_question], outputs[output_image, output_answer] ) demo.launch(shareFalse, server_name0.0.0.0, server_port7860)运行这个脚本在浏览器中打开http://localhost:7860你就可以上传图片用鼠标框选任意区域并针对该区域提问了。这种交互方式极大地降低了使用门槛并能直观展示Groma的核心能力。4. 深入原理区域编码与多模态对齐是如何实现的要真正理解Groma的强大之处我们需要再深入一层看看其模型内部是如何实现“区域-图像-文本”三者对齐的。这涉及到多模态表示学习中最核心的挑战。4.1 区域视觉特征的提取从像素块到语义向量现代视觉编码器如Vision Transformer, ViT将图像分割成固定大小的块例如16x16像素每个块被线性投影为一个特征向量。对于一张图像我们得到的是一个特征序列V [v1, v2, ..., vN]其中N是块的数量。当给定一个区域框时Groma需要从这个序列中提取出对应区域的特征。一个朴素的方法是平均池化找出所有中心点落在框内的图像块将它们的特征取平均。但这种方法在区域边界上不精确且丢失了空间结构信息。Groma更可能采用类似RoIAlign或Deformable Attention的技术RoIAlign将区域框均匀划分成一个小网格如7x7在每个网格单元内对覆盖的原始图像块特征进行双线性插值采样然后聚合。这能得到固定大小的、对齐良好的区域特征图再通过池化或一个小的神经网络区域编码器压缩成单个特征向量v_region。Deformable Attention这是一种更灵活的方法。模型学习一组“偏移量”使得注意力机制可以聚焦到与区域相关的、可能不规则分布的图像块上动态地聚合关键特征。这种方法对不规则形状或语义上相关但空间不连续的区域更有效。得到的v_region就是该区域的“视觉指纹”。4.2 位置信息的注入让模型知道“在哪里”仅有视觉特征v_region是不够的。想象一下模型知道图片里有一个“红色圆形”但它不知道这个圆形是在左上角的“关闭按钮”还是图表中的“数据点”。位置信息至关重要。Groma会为区域框生成高维的位置编码p_region。这通常通过以下步骤将归一化坐标[x1, y1, x2, y2]进行编码。常用的方法是使用正弦余弦位置编码Sinusoidal Positional Encoding或可学习的位置嵌入Learned Positional Embedding将其映射到一个高维空间。除了绝对坐标还可能编码相对信息如框的中心点(cx, cy)、宽度w、高度h甚至宽高比w/h。这些信息对于理解物体的尺度和形状有帮助。最终p_region是一个与v_region维度相匹配的向量。4.3 多模态令牌的融合与交互现在我们有了区域视觉特征v_region和区域位置特征p_region。Groma会将它们融合形成最终的区域令牌Region Tokenr f(v_region, p_region)其中f可以是简单的相加、拼接后通过线性层投影或更复杂的跨模态融合模块。这个区域令牌r连同从整张图像中提取的全局图像令牌V以及文本提示词经过分词器得到的文本令牌T被一起送入大语言模型LLM。关键在于在LLM眼中r、V和T都是序列中的一个个令牌。LLM的自注意力机制允许这些令牌之间自由地交互r可以关注V中其他部分的图像令牌来理解上下文例如区域内的图标和周围的文字标签。T中的问题令牌可以关注r来获取回答问题的具体视觉依据。r也可以关注之前的文本对话历史理解指代关系如“它旁边的那个”。通过在海量数据上训练LLM学会了如何在这种混合了文本、全局视觉和局部视觉信息的令牌序列中进行推理从而生成针对特定区域的、连贯准确的回答。这种将区域“令牌化”并平等参与注意力计算的设计是Groma实现精准区域理解的根本。5. 应用场景与未来展望Groma能做什么又将走向何方Groma的能力并非炫技它在众多需要精细视觉理解的场景中有着实实在在的应用潜力。5.1 当前的核心应用场景UI/UX设计与自动化测试设计稿审查上传UI设计稿框选一个组件询问“这个按钮的交互状态有哪些”、“这段文字的字体和颜色规范是什么”。Groma可以结合视觉和常见设计模式给出反馈。自动化测试脚本生成对应用截图框选一个功能模块指令“为这个登录表单生成Playwright测试脚本”。模型可以描述出输入框、按钮等元素并生成相应的定位代码和测试逻辑。无障碍检测框选图片中的元素询问“这个图标的对比度是否满足WCAG标准”或“这段文字的可读性如何”。文档智能与信息提取复杂图表理解在学术论文或商业报告的分析中直接框选折线图中的某个数据点或柱状图中的某个柱子问“这个峰值对应的具体数值和年份是多少”、“比较A产品和B产品在2023年的市场份额”。合同与票据关键信息提取框选合同中的金额、日期、签名区域进行定向的问答和汇总比通用的OCRNLU流程更精准、更灵活。交互式教育与内容创作智能教学助手在几何题图片中框选一个三角形问“这个角是多少度”或“证明这两条线平行”。模型可以基于视觉信息进行推理和讲解。视频内容分析对视频关键帧进行操作框选特定人物或物体进行跟踪和问答“这个穿红衣服的人接下来做了什么”为视频摘要和检索提供新思路。机器人视觉与具身智能精确操作指令给机器人一张场景图通过语言和框选指定目标物体“请抓取框选的杯子”模型能输出更精确的抓取位姿或导航指令减少歧义。5.2 面临的挑战与局限性尽管强大Groma目前仍面临一些挑战区域精度依赖模型的表现很大程度上依赖于输入区域框的准确性。框选偏差可能导致模型关注到错误的内容。复杂场景推理对于需要深度常识或复杂逻辑推理的区域问题如“预测这个设备如果按下这个按钮接下来哪个灯会亮”能力仍然有限。训练数据偏差模型性能受限于其训练数据。在专业领域如医学影像、工业图纸上若无针对性数据表现会下降。计算开销区域编码和细粒度理解增加了计算复杂度对实时应用提出更高要求。5.3 未来的演进方向基于当前架构和能力我们可以预见Groma几个可能的演进方向从“框选”到“自由形式指代”未来版本可能支持更自然的指代方式如分割掩码Segmentation Mask、点选Pointing甚至自然语言描述“左上角那个红色的、带齿轮的图标”进一步降低交互门槛。多区域与关系推理支持同时输入多个区域并回答关于区域之间关系的问题如“ 和哪个更大”、“ 是的一部分吗”。主动视觉模型不仅能回答关于指定区域的问题还能在对话中主动提出需要查看哪个区域以更好地回答问题例如用户问“这个仪表是否正常”模型可能反问“请框选出当前的读数指针区域”。与具身智能深度集成成为机器人“眼睛”和“大脑”之间的桥梁将视觉区域理解直接映射为动作参数实现更智能的“手眼协同”。领域专业化出现针对医疗、法律、教育、电商等垂直领域进行精调的Groma变体在特定任务上达到专家级水平。Groma代表了多模态AI向更精细、更交互、更实用方向迈出的坚实一步。它不再满足于“看到了什么”而是致力于解决“看到了哪里以及那里究竟意味着什么”的问题。对于开发者和研究者来说现在正是深入探索这一领域基于Groma构建下一代视觉应用的好时机。从自动化工具到智能助手那些需要精确视觉交互的场景都将是它的用武之地。

查看全文

http://www.rkmt.cn/news/1301849.html