当前位置：首页 > news >正文

文献阅读 | Survey of Hallucination in Natural Language Generation

news 2026/6/14 23:30:03

问题描述

本文主要讲了NLG中的幻觉现象

幻觉定义：模型生成不忠实于源内容或无意义的文本

幻觉分类：内在幻觉（矛盾、完全错误的）、外在幻觉（无法被验证）

幻觉危害：隐私泄露

成因：

评估指标：

统计 metric：基于 n-gram 重叠，如 PARENT（结合源和目标）、Knowledge F1（对话任务知识重叠）。
模型 - based metric：
- IE-based：提取关系 tuple 对比（如（实体，关系，属性）匹配）；
- QA-based：通过问答对一致性评估（如 FEQA、QAGS）；
- NLI-based：计算源与生成文本的 entailment 概率；
- 忠实性分类模型：基于合成数据训练（如 Zhou 等构建的幻觉标注数据）；
- LM-based：对比条件 / 非条件 LM 的损失（损失低则为幻觉 token）。
人类评估：评分（如 1-5 分）或对比，关注忠实性、事实一致性等。

缓解方法

数据相关：
- 构建忠实数据集（如 TOTTO 通过人工修正确保忠实性）；
- 自动清洗（过滤低质量样本、修正数据）；
- 增强信息（加入实体、外部知识）。
建模与推理：

架构改进：双编码器（处理文本 + 知识）、注意力机制调整（如聚焦注意力）；
训练方法：强化学习（基于忠实性奖励）、多任务学习（如摘要 + entailment 任务）；
后处理：生成 - 修正策略（如 SpanFact 通过跨度选择修正）。

未来方向

指标：细粒度区分内在 / 外在幻觉、整合事实核查、跨任务通用指标。
缓解：通用数据处理方法、数字幻觉处理、提升可控性（平衡忠实性与多样性）

查看全文

http://www.rkmt.cn/news/4830.html

支付中心的钱包类业务应该怎么设计

命令模式的深度解析：从标准实现到TPL Dataflow高性能架构

WF 2025 游记

17.时间处理

第一周作业2

[高可用/负载均衡] Ribbon LoadBalancer: 开源的客户端式负载均衡框架

梦话周记

【电机控制】无刷电机结构阐述---磁极数、槽数

nginx使用默认端口80作为服务端口

2025年医疗行业API安全最佳实践与深度案例分析：从理论到全面落地

Python数据分析零基础完整课程大纲（详细版）【202509第1版】 - 指南

VSTO QQ群 61840693 解散通知【新群193203228 】

Clion 实现多个 main 函数执行互不影响

腾讯终于对Claude code下手了？我拿它跑完一个真实项目，结果有点意外…

快速利用AI读论文

日常练习一部分

SpringCloud全解：核心组件与实战案例 - 教程

机器人逆运动学进阶：李代数、矩阵指数与旋转流形计算

CSP2025 游记

Luogu P14031 【MX-X20-T5】「FAOI-R7」连接时光 II

Arabic	Hebrew	Polish
Bulgarian	Hindi	Portuguese
Catalan	Hmong Daw	Romanian
Chinese Simplified	Hungarian	Russian
Chinese Traditional	Indonesian	Slovak
Czech	Italian	Slovenian
Danish	Japanese	Spanish
Dutch	Klingon	Swedish
English	Korean	Thai
Estonian	Latvian	Turkish
Finnish	Lithuanian	Ukrainian
French	Malay	Urdu
German	Maltese	Vietnamese
Greek	Norwegian	Welsh
Haitian Creole	Persian

Arabic	Hebrew	Polish
Bulgarian	Hindi	Portuguese
Catalan	Hmong Daw	Romanian
Chinese Simplified	Hungarian	Russian
Chinese Traditional	Indonesian	Slovak
Czech	Italian	Slovenian
Danish	Japanese	Spanish
Dutch	Klingon	Swedish
English	Korean	Thai
Estonian	Latvian	Turkish
Finnish	Lithuanian	Ukrainian
French	Malay	Urdu
German	Maltese	Vietnamese
Greek	Norwegian	Welsh
Haitian Creole	Persian

问题描述

缓解方法

未来方向

相关文章：