论文文章:Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement
核心
针对LVLM中的动作关系幻觉,提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。
它解决的不是“图像里有没有某个物体”这种对象幻觉,而是:
主体 - 动作关系 - 客体 subject - action relation - object例如:
woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard论文认为,LVLM之所以容易产生动作关系幻觉,主要原因是:模型在生成答案时过度依赖语言先验,而对真正关键的视觉区域关注不足。论文观察到,虽然图像token在输入序列中占大多数,但模型分配给图像token的attention明显低于文本token,文本token获得的attention约为图像token的10到100倍。
流程图
一句话的解释:推理过程中模型更加关注视觉中的关系
Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头
Action-Contrastive Pair Construction:构建一张图片+两个对话(只有关系改变,控制变量可以看到后续哪个头变化大,那么这个头是对关系敏感)
LVLM Architecture:图片和文字编码和进入LVLM
Calculate ARS Score:统计每一层中每一个头的分数变化
Relation-Aware Visual Enhancement:用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注
Relation-Aware Visual Enhancement:选中top-k个对关系敏感的头,对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头,对他们关注的patch取后映射到图中
Attention Mask Construction and Enhancement:对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头,对他们关注的patch取平均后得到图中不关注的像素点,然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。