缓解模型关系幻觉（关系感知视觉增强）-尧图网站建设

📅 发布时间：2026/7/1 16:35:30

论文文章：Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement

核心

针对LVLM中的动作关系幻觉，提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。

它解决的不是“图像里有没有某个物体”这种对象幻觉，而是：

主体 - 动作关系 - 客体 subject - action relation - object

例如：

woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard

论文认为，LVLM之所以容易产生动作关系幻觉，主要原因是：模型在生成答案时过度依赖语言先验，而对真正关键的视觉区域关注不足。论文观察到，虽然图像token在输入序列中占大多数，但模型分配给图像token的attention明显低于文本token，文本token获得的attention约为图像token的10到100倍。

流程图

一句话的解释：推理过程中模型更加关注视觉中的关系

Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头

Action-Contrastive Pair Construction：构建一张图片+两个对话（只有关系改变，控制变量可以看到后续哪个头变化大，那么这个头是对关系敏感）

LVLM Architecture：图片和文字编码和进入LVLM

Calculate ARS Score：统计每一层中每一个头的分数变化

Relation-Aware Visual Enhancement：用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注

Relation-Aware Visual Enhancement：选中top-k个对关系敏感的头，对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头，对他们关注的patch取后映射到图中

Attention Mask Construction and Enhancement：对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头，对他们关注的patch取平均后得到图中不关注的像素点，然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。