当前位置：首页 > news >正文

LLaMA-Adapter - 详解

news 2026/6/14 19:00:00

LLaMA-Adapter - 详解

论文标题： LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

arXiv 地址： https://arxiv.org/abs/2303.16199

开源代码库： https://github.com/ZrrSkywalker/LLaMA-Adapter

原理

将指令信息作为可学习的提示（Learnable Prompt）注入到LLaMA的高层特征中，从而引导模型生成符合指令的回复。就是LLaMA-Adapter的核心思想

它主要包括两个关键技术点：

可学习的适配器参数（Learnable Adaption Prompts）
在Transformer块的输入词序列最前面，插入一组可学习的提示向量（图中绿色部分）。这组向量可以理解为用于承载指令语义的“密码”或“密钥”。
这些提示向量是随机初始化并通过训练来学习的。它们的长度（例如10个token）远小于原始文本序列，极大减少了参数量。
零初始化注意力（Zero-initialized Attention）
这是论文的一个关键创新点，用于保证训练稳定性。
在训练初期，我们希望冻结的LLaMA模型不受随机初始化的适配器参数的影响。理想情况下，模型最初的输出应该与未微调的原始LLaMA一样。
为了实现这一点，他们在插入适配器提示的注意力层上，使用了一个零初始化的门控机制（gating factor）。
具体而言，注意力输出被计算为： Attention_output = gating_factor * (Attention_with_Adapter) + (1 - gating_factor) * (Attention_original) ，其中 gating_factor 初始为0。
这样，在训练开始时，适配器提示的贡献为0，模型行为与原始LLaMA完全一致。随着训练进行， gating_factor 逐渐学习并增大，适配器提示开始管用地引导模型生成。这避免了训练初期不稳定的噪声，大大提高了微调的效率和效果。

对比

LLaMA

首先，我们要明白语言模型（LLaMA）的基本操作。它的输入和输出都是数字。

Token化（文本 -> 数字）：

假设大家的词表很小，只有几个词：

“<用户>”：10
“总结”：11
“你好”：12
“世界”：13
“”：14

用户输入 “总结：你好世界” ，被转换成数字序列： [11, 12, 13]
模型处理：模型会为每个位置生成一个“特征向量”。为了简单，假设特征向量维度只有3。

词嵌入：[11, 12, 13] -> 嵌入后可能变成 [[0.1, 0.2, 0.3], [1.1, 1.2, 1.3], [2.1, 2.2, 2.3]]就是初始输入

模型经过层层计算，最终输出每个位置的下一个词预测概率。

在位置3（ [2.1, 2.2, 2.3] ），模型可能计算出下一个词是 “。” 的概率最高。这显然不是我们想要的总结任务。

LLaMA-Adapter

现在，我们启用LLaMA-Adapter。我们设定可学习的提示向量（密码）长度为2，维度为3。

第一步：初始化“密码”和“阀门”
adapt_prompts （密码手势）：随机初始化，比如 [[0.9, -0.5, 0.2], [0.4, 0.1, -0.3]]
gating_factor （阀门）：初始化为0！这是“零初始化注意力”的精髓。
第二步：修改模型输入（插入密码）

原始输入： x = [[0.1, 0.2, 0.3], [1.1, 1.2, 1.3], [2.1, 2.2, 2.3]]

插入适配器提示后，新输入变成：
x_new = [ [0.9, -0.5, 0.2], [0.4, 0.1, -0.3], [0.1, 0.2, 0.3], [1.1, 1.2, 1.3], [2.1, 2.2, 2.3] ]
[0.9, -0.5, 0.2] 和 [0.4, 0.1, -0.3] 就是我们可学习的密码。

第三步：计算注意力并应用“阀门”
假设经过LLaMA的注意力层计算后，原输入位置 [2.1, 2.2, 2.3] 的输出是 [5.0, 5.0, 5.0] 。
由于我们插入了提示，注意力计算会考虑所有位置（包括提示），该位置的输出变成了 [8.0, 8.0, 8.0] 。这个变化是巨大的，可能破坏模型原本的能力。
关键一步：应用零初始化阀门
final_output = gating_factor * [8.0, 8.0, 8.0] + (1 - gating_factor) * [5.0, 5.0, 5.0]
训练刚开始时， gating_factor = 0 ：
final_output = 0 * [8.0,8.0,8.0] + 1 * [5.0,5.0,5.0] = [5.0, 5.0, 5.0]
看到了吗？最终输出和原始LLaMA一模一样！随机初始化的密码在开始时完全不起作用，保证了训练稳定性。
第四步：训练与更新
我们开始训练。计算损失，比如模型在位置3应该输出 “结束” 这个词，但它输出了 “。” ，所以产生了损失。
反向传播时，LLaMA的巨量参数被冻结，梯度无法计算，因此它们纹丝不动。
只有 adapt_prompts 和 gating_factor 会收到梯度并更新。
经过多次迭代， adapt_prompts 被调优成一组实用的密码， gating_factor 也可能从0慢慢增长到0.5、0.8…
此时， final_output = 0.8 * [8.0,8.0,8.0] + 0.2 * [5.0,5.0,5.0] = [7.4, 7.4, 7.4]
“。”。这就使得"密码"生效了。就是新的输出 [7.4, 7.4, 7.4] 使得模型能更准确地预测出“结束”而不

http://www.rkmt.cn/news/5234.html

相关文章：

基于yolo12进行深度学习的机动车车牌检测

journald 持久化 + 限额脚本

深入解析：PAT乙级_1125 子串与子列_Python_AC解法_含疑难点

东南大学数据库课程06-Database Design

东南大学数据库课程07-Distributed Database Systems

Xdebug安装与PhpStorm调试配置

快速搞定Dify+Chrome MCP：打造能操作网页的AI助手

Unstable Twin - TryHackMe

完整教程：从 WildCard 野卡到 gptplus.plus：一次解决 OpenAI 支付难题的实战复盘，轻松搞定Gpt充值

BOE（京东方）IPC电竞嘉年华盛典圆满收官第三届无畏杯总决赛引领电竞生态发展热潮

95.费解的开关

Spotify 音乐ML练习数据集含158 个特征，11

最新药物数据集下载：来自Drugs

400小时大规模南昌方言数据集助力方言保护、AI语音识别技术开发与文化传承研究，覆盖多样化场景与说话者，专业采集高质量音频与文本标注，支持深度学习、语音模型训练、方言教学工具及本地化智能语音交互应用

350+张高清晰度冲积土、黑土、煤渣土、红土四类土壤类型图像资源，专为计算机视觉算法训练与地球科学研究设计，支持精准农业土壤识别、地质勘探辅助分析及环境监测应用，提升土壤分类模型准确性

阶跃星辰开源Step-Video-T2V模型：300亿参数打造高保真视频生成新标杆

多多报销小程序系统详解

第0章矿卡EBAZ4203爆改zynq开发板介绍和VIVADO的安装

无痕检测是否注册iMessage服务,iMessages数据筛选,iMessage蓝号检测协议

Thundbird无法获取自签证书。

Gitee推出SBOM扫描功能：为开源供应链安全构筑数字防火墙

mysql连表查询，轻松掌握多表数据关联技巧

Qt-捕获摄像头画面

.NET驾驭Word之力：COM组件二次开发全攻略之连接Word与创建你的第一个自动化文档

用户沉默之日，产品衰亡之时：逃离迭代中的“沉默陷阱”

从工具到生态：现代Bug管理系统的平台化转型之路

uni-app项目支付宝端Input不受控

开启研究生学习阶段

李航统计学习方法第二版学习笔记