当前位置：首页 > news >正文

大型语言模型多选题评估中的偏差问题与改进协议

news 2026/6/14 12:29:32

1. 大型语言模型多选题评估中的偏差问题

在评估大型语言模型(LLM)的多选题(Multiple-Choice Question, MCQ)回答能力时，研究人员发现模型表现往往受到多种系统性偏差的影响。这些偏差并非源于模型的实际理解能力，而是来自评估方法本身的设计缺陷。

1.1 标签位置偏差的实证分析

标签位置偏差是指模型倾向于选择特定位置的选项，无论其内容如何。通过"答案移动攻击"(answer-moving attack)实验，研究者发现：

当将正确答案移动到不同位置时，模型准确率会出现显著波动
某些模型在正确答案位于第一个选项时准确率高达80%，而位于最后一个选项时可能降至30%
这种偏差在不同规模的模型中普遍存在，但影响程度各异

重要发现：标签替换(如用表情符号代替字母)对准确率的影响比单纯的位置洗牌更为显著，说明模型不仅依赖位置信息，还会从标签符号本身获取线索。

1.2 少样本提示偏差的机制

少样本(few-shot)提示中的答案分布会显著影响模型表现。通过NonsenseQA基准测试(使用随机单词构建的无意义问题)发现：

显性偏差模型：直接在推理中引用提示示例的答案分布
- 示例：GPT-OSS模型在无意义输入上达到>95%准确率
- 模型输出中明确提及"根据前面的示例..."
隐性偏差模型：虽不直接引用，但仍受提示答案分布影响
- 示例：Qwen3-8B模型保持50%以上准确率
- 模型内部隐式利用了分布模式
抗偏差模型：较难利用提示偏差
- 示例：Gemma-3-27b-it模型准确率约40%
- 但仍高于随机猜测的25%

1.3 评估协议设计中的关键问题

传统评估协议包含四个可能引入偏差的组件：

少样本提示(P)：示例问题的答案分布
选项标签(L)：分配给每个位置的符号(如A/B/C/D)
排列顺序(π)：选项的呈现顺序
提取函数(X)：从模型输出到候选答案的映射

标准"选择字母"(Select-and-Letter, S&L)协议使用不同标签(如A/B/C/D)和单字母提取，放大了这些偏差的影响。

2. 偏差减少的评估协议设计

2.1 核心设计原则

基于上述发现，我们提出"匹配破折号"(Matched-and-Dashed, M&D)协议，包含三个关键改进：

均匀标签：使用相同的"-"符号标记所有选项
- 消除标签本身的顺序暗示
- 模拟Markdown中的无序列表格式
全文答案生成：要求模型生成完整答案文本而非选择标签
- 避免预测偏差
- 支持思维链推理
语义相似度匹配：使用句子嵌入模型匹配生成答案与候选选项
- 接受同义表达
- 处理输出变体

2.2 技术实现细节

2.2.1 答案提取流程

使用正则表达式从模型输出中提取最终单句答案
- 主模式：匹配特定指令格式的答案
- 后备模式：提取最后一句作为回退
对提取的答案和所有选项生成嵌入向量
- 默认使用Qwen3-Embedding-0.6B模型
- 计算余弦相似度
选择相似度最高的选项作为预测答案

2.2.2 提示工程调整

原始提示：

Question: [问题文本] Options: A. [选项1] B. [选项2] ... Answer:

改进后的M&D提示：

Question: [问题文本] Options: - [选项1] - [选项2] ... Please provide a complete sentence as your final answer:

2.3 计算效率考量

相比标准协议，M&D仅增加约3%的计算开销：

主要来自答案提取和相似度计算
嵌入模型选择较小规模(0.6B参数)以保持效率
单次前向传递即可完成评估，无需微调或访问内部状态

3. 多基准测试验证

3.1 NonsenseQA诊断基准

这个合成数据集包含1,000个随机单词构建的问题，用于量化评估偏差：

每个问题有4个随机单词组成的选项
正确答案随机分配(均匀分布)
包含100个验证问题用于少样本提示

关键结果：

标准S&L协议下模型中位准确率显著高于随机(25%)
M&D协议将中位准确率降至接近随机水平
显性偏差模型准确率从>95%降至~50%

3.2 真实基准测试表现

在五个主流基准上的对比结果：

基准测试	模型数量	准确率方差降低	SCORE变化
CSQA	13	89%	-12%
ARC	13	67%	+5%
GPQA	13	51%	+23%
INCLUDE	13	77%	-8%
MMLU-Pro	13	1%	-15%

*SCORE: 系统性一致性和稳健性评估指标

特殊案例：

MMLU-Pro(10个选项)显示强烈的位置依赖性
即使微小顺序变化也会导致准确率大幅下降
反映数据集结构特性而非协议限制

3.3 多语言评估

在INCLUDE多语言子集(西班牙语、法语、意大利语、德语)上的发现：

偏差模式与英语评估一致
语言间性能相关性在去除偏差后降低
表明强英语表现不一定转化为同等多语言能力

4. 实践应用指南

4.1 实施步骤

数据准备：
- 将选项标签统一替换为"-"
- 确保每个选项是完整句子
提示设计：
- 包含明确的全文答案生成指令
- 少样本示例也采用M&D格式

相似度配置：

from sentence_transformers import SentenceTransformer model = SentenceTransformer('Qwen/Qwen3-Embedding-0.6B') def match_answer(generated, candidates): gen_embed = model.encode(generated) cand_embeds = model.encode(candidates) similarities = gen_embed @ cand_embeds.T return candidates[similarities.argmax()]