当前位置：首页 > news >正文

DeepSeek-V4-Flash 登场，大语言模型引导技术再引关注！

news 2026/5/25 21:16:35

DeepSeek-V4-Flash 让大语言模型引导技术再度引人关注自 Golden Gate Claude 发布以来引导技术steering就备受关注。其核心思想是在模型运行过程中直接操控激活值以引导大语言模型LLM的输出。DeepSeek V4 Flashantirez 最近的项目 DwarfStar 4 启发了本文创作。它是 llama.cpp 的精简版本仅用于运行 DeepSeek-V4-Flash。该模型或许是许多工程师期待的本地模型性能足以与前沿模型在代码生成方面的低端表现抗衡。由于引导技术需本地模型支持现在很多工程师有机会首次尝试。实际上antirez 已将引导技术作为核心功能集成到 DwarfStar 4 中目前该技术处于初级阶段不过首次发布距今仅八天值得密切关注。引导技术的工作原理引导技术的基本思路是从模型内部状态提取概念如“简洁回复”然后在推理过程中增强构成该概念的数值激活值。一种实现方法是向模型输入同一组一百个提示两次一次正常提示另一次添加“简洁回复”测量两组提示下模型激活值的差异得到“引导向量”将其添加到任何提示对应的激活层可让模型简洁回复。另一种更复杂的方法是训练辅助模型从主模型激活值中提取“特征”并映射到具体概念后增强这与 Anthropic 利用稀疏自编码器的工作原理类似虽能捕捉更深入模式但需更多时间、计算资源和专业知识。引导技术为何引人关注引导技术听起来像作弊码与其费力构建训练集将模型推向“智能”端不如直接找到模型“大脑”中的“智能”旋钮并拧到最大。此外它是更优雅的调整模型输出方式不用在提示中反复调整限定词可直接用控制面板滑动滑块调整。而且引导技术很酷看着 Golden Gate Claude 将话题引到金门大桥就像读奥利弗·萨克斯的神经学轶事既引人入胜又让人不安不禁让人思考若思维被如此调整自己还是不是原来的自己。引导技术未广泛应用的原因引导技术未广泛应用原因之一是它在人工智能研究中处于尴尬的“中间地位”。对于大型人工智能实验室来说它显得“低级”他们可直接操控模型Anthropic 研究相关内容主要从可解释性和安全性角度出发希望模型特定运行时通常直接训练模型。对于普通人工智能用户通过 API 使用大语言模型无法访问模型权重或激活值无法进行引导操作如只有 OpenAI 能识别或公开 GPT - 5.5 的引导向量且此前没有足够强大的开放模型值得引导。此外引导技术的大多数基本应用可通过提示模型实现甚至效果更好提示词本身也影响模型“大脑”调整提示语言也能实现精细控制没必要费力使用引导技术。引导不可提示的概念若能识别无法通过提示实现的概念引导技术会很有用如“智能”概念现在通过提示引导模型表现智能已无效使用引导技术是否有效是实证问题但很难找到“智能”引导向量复杂概念对应的引导向量可能涵盖模型所有权重识别它等同于“训练一个智能模型”。过于复杂的引导方法可能直接取代模型本身如用更强模型的激活值替换 GPT - 2 激活值得到的是与更强模型交互智能体现在引导过程而非模型本身。引导技术作为数据压缩手段引导技术的潜在用途是节省模型的上下文窗口可视为将概念从模型工作记忆转移到隐式记忆的方法。例如若能识别“对特定代码库的了解”概念GPT - 5.5 阅读代码库获得的部分知识可能隐藏在激活值中也许可提取成大引导向量。但实现存在困难“了解代码库”概念复杂可能需对模型全面微调不过仍有实现可能。结论引导技术虽令人感兴趣但并不十分乐观。大部分通过引导技术实现的效果可通过提示更高效完成雄心勃勃的引导目标通过训练或微调模型实现更有效。开源社区在引导技术方面研究不多但情况可能改变。若引导技术有实际应用价值未来六个月内有望看到成果。看看像 DwarfStar 4 这样的模型工具是否会包含可增强特征的“库”很有趣流行开放权重模型发布时社区会推出包装器和量化版本是否会有人竞相从模型中提取可增强特征呢这篇文章在 Hacker News 上引发讨论几位评论者指出引导技术可改变模型“训练出来”的行为消除模型拒绝回复这是目前对开放模型去审查/消除限制的方法。antirez 提到修改权重对模型能力的损害可能比轻量级的运行时引导方法更大很有道理。此外模型有许多不同的激活值可供测量可选择任意一个或尝试多个看效果。有人读了关于使用开放 LLaMA 模型进行相关操作的深度分析文章自己尝试过效果参差不齐。向大型人工智能实验室读者致歉若内部尝试引导技术提升模型能力未成功可发邮件。即便如此行业中“针对特定代码库微调模型”效果大多不尽如人意。若喜欢这篇文章可考虑订阅邮件更新或在 Hacker News 上分享。以下是相关文章预览大语言模型的“技能”是针对特定任务的简短解释性提示通常附带辅助脚本。最近一篇论文表明大语言模型自己生成的技能无效自我生成的技能平均无益处表明模型无法可靠生成从中受益的程序性知识。目前不想深入探讨该论文只想指出其使用大语言模型生成技能的方法不可取。

查看全文

http://www.rkmt.cn/news/1303539.html