尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

缓解模型关系幻觉(关系感知视觉增强)

缓解模型关系幻觉(关系感知视觉增强)
📅 发布时间:2026/7/1 16:35:30

论文文章:Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement

核心

针对LVLM中的动作关系幻觉,提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。

它解决的不是“图像里有没有某个物体”这种对象幻觉,而是:

主体 - 动作关系 - 客体 subject - action relation - object

例如:

woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard

论文认为,LVLM之所以容易产生动作关系幻觉,主要原因是:模型在生成答案时过度依赖语言先验,而对真正关键的视觉区域关注不足。论文观察到,虽然图像token在输入序列中占大多数,但模型分配给图像token的attention明显低于文本token,文本token获得的attention约为图像token的10到100倍。

流程图

一句话的解释:推理过程中模型更加关注视觉中的关系

Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头

Action-Contrastive Pair Construction:构建一张图片+两个对话(只有关系改变,控制变量可以看到后续哪个头变化大,那么这个头是对关系敏感)

LVLM Architecture:图片和文字编码和进入LVLM

Calculate ARS Score:统计每一层中每一个头的分数变化

Relation-Aware Visual Enhancement:用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注

Relation-Aware Visual Enhancement:选中top-k个对关系敏感的头,对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头,对他们关注的patch取后映射到图中

Attention Mask Construction and Enhancement:对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头,对他们关注的patch取平均后得到图中不关注的像素点,然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。

相关新闻

  • CR2032电池供应商有哪些?国内外主要CR2032生产厂家盘点
  • 2026 TCL华星光电标杆研学参访|全球显示科技智能制造考察预约指南
  • 如何用novelWriter实现高效小说创作:从零到完整作品的完整指南

最新新闻

  • PCL-PEO-PCL 三嵌段共聚物的自组装行为
  • 靠谱的openclaw哪家技术强
  • 项目分析:优势、挑战与初步步骤
  • 【Claude】成本控制与用量监控实战 — 已解决
  • BIMBase 数据直达 CesiumLab 与 CIMRTS:纹理和属性,不必再二选一
  • 2026母婴产品深度测评:呼伦贝尔黄金A2奶源奶粉甄选与品质解析

日新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

周新闻

  • Windows字体自定义终极方案:No!! MeiryoUI完全指南
  • Deepin Boot Maker:告别命令行,3分钟制作Linux启动盘的智能解决方案
  • Plain Craft Launcher 2:重新定义你的Minecraft游戏体验

月新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号