Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustwort...-尧图网站建设

📅 发布时间：2026/7/5 15:24:54

文章核心总结与创新点

主要内容

文章聚焦大型语言模型（LLMs）的可解释性，围绕局部可解释性和机制可解释性两大核心方向展开。首先梳理了LLMs的发展背景与Transformer架构基础，系统综述了现有局部可解释性（如思维链推理、检索增强生成等）和机制可解释性（如注意力头分析、电路分析等）方法；其次通过医疗和自动驾驶两个安全关键领域的实证研究，分析了LLM解释对接收者的信任影响；最后明确了当前可解释性研究的未解决问题，提出了实现人类对齐、可信解释的八大核心原则（安全、真实性、公平性等）及未来研究方向。

创新点

从信任视角整合局部可解释性与机制可解释性，首次系统分析了事实、信念、灰色地带信息的解释差异，以及隐性知识与显性知识在LLM解释中的体现。
基于医疗和自动驾驶领域的实证研究，提出可信局部解释需满足的四大核心属性（通过因果推理测试、应对对比性/反事实问题、区分事实与信念、避免虚构解释）。
提出LLM解释的三级粒度分类（粗粒度、粗细结合粒度、细粒度），适配不同解释接收者（普通用户、领域专家、开发者）的需求。
明确LLM解释需遵循的八大可信原则，构建了“人类中心型可信LLM”的解释框架，为后续研究提供统一指导。

翻译部分（Markdown格式）

Abstract

大型语言模型在自然语言处理的各类下游任务中展现出令人瞩目的性能。然而，语言模型如何预测下一个toke