当前位置: 首页 > news >正文

文献阅读 | Survey of Hallucination in Natural Language Generation

问题描述

本文主要讲了NLG中的幻觉现象

幻觉定义:模型生成不忠实于源内容无意义的文本

幻觉分类:内在幻觉(矛盾、完全错误的)、外在幻觉(无法被验证)

幻觉危害:隐私泄露

成因:image

 评估指标:

  • 统计 metric:基于 n-gram 重叠,如 PARENT(结合源和目标)、Knowledge F1(对话任务知识重叠)。
  • 模型 - based metric:
    • IE-based:提取关系 tuple 对比(如(实体,关系,属性)匹配);
    • QA-based:通过问答对一致性评估(如 FEQA、QAGS);
    • NLI-based:计算源与生成文本的 entailment 概率;
    • 忠实性分类模型:基于合成数据训练(如 Zhou 等构建的幻觉标注数据);
    • LM-based:对比条件 / 非条件 LM 的损失(损失低则为幻觉 token)。
  • 人类评估:评分(如 1-5 分)或对比,关注忠实性、事实一致性等。

缓解方法

  • 数据相关:
    • 构建忠实数据集(如 TOTTO 通过人工修正确保忠实性);
    • 自动清洗(过滤低质量样本、修正数据);
    • 增强信息(加入实体、外部知识)。
  • 建模与推理:
    • 架构改进:双编码器(处理文本 + 知识)、注意力机制调整(如聚焦注意力);
    • 训练方法:强化学习(基于忠实性奖励)、多任务学习(如摘要 + entailment 任务);
    • 后处理:生成 - 修正策略(如 SpanFact 通过跨度选择修正)。

 

未来方向

  • 指标:细粒度区分内在 / 外在幻觉、整合事实核查、跨任务通用指标。
  • 缓解:通用数据处理方法、数字幻觉处理、提升可控性(平衡忠实性与多样性)
http://www.rkmt.cn/news/4830.html

相关文章:

  • 支付中心的钱包类业务应该怎么设计
  • 命令模式的深度解析:从标准实现到TPL Dataflow高性能架构
  • WF 2025 游记
  • 17.时间处理
  • 第一周作业2
  • [高可用/负载均衡] Ribbon LoadBalancer: 开源的客户端式负载均衡框架
  • 梦话周记
  • 【电机控制】无刷电机结构阐述---磁极数、槽数
  • nginx使用默认端口80作为服务端口
  • 2025年医疗行业API安全最佳实践与深度案例分析:从理论到全面落地
  • lc1027-最长等差数列
  • np.zeros函数
  • Langchain之让LLM拥有记忆
  • numpy中的shape属性
  • mac 查看fat32磁盘
  • Python数据分析零基础完整课程大纲(详细版)【202509第1版】 - 指南
  • VSTO QQ群 61840693 解散通知【新群193203228 】
  • Clion 实现多个 main 函数执行互不影响
  • 腾讯终于对Claude code下手了?我拿它跑完一个真实项目,结果有点意外…
  • 快速利用AI读论文
  • 日常练习一部分
  • SpringCloud全解:核心组件与实战案例 - 教程
  • 学起plus刷课
  • 202212_风二西_冰蝎流量分析
  • 记账:报表
  • 记账:快速上手
  • Madness - TryHackMe
  • 机器人逆运动学进阶:李代数、矩阵指数与旋转流形计算
  • CSP2025 游记
  • Luogu P14031 【MX-X20-T5】「FAOI-R7」连接时光 II