尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大!

通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大!
📅 发布时间:2026/6/20 4:32:37

摘要

本文提出了一种新方法–Rank-One Safety Injection (ROSI),以提高 LLM 的安全性。

近年来,LLM 已被广泛应用,但防止生成危险内容的 "安全对齐 "已成为一项挑战。

然而,据报道,这种机制很容易被越狱攻击(越狱)攻破。

以往的研究表明,安全机制可以通过抹除一个被称为 "拒绝方向 "的一维表示空间而失效。

本研究采用了相反的思路,开发了一种轻量级、可解释的方法,通过增强 "拒绝方向 "来提高安全性。
ROSI 只需对模型的权重矩阵进行秩 1 更新,无需重新训练或大量调整。

实验证实,ROSI 提高了对有害请求的拒绝率,同时几乎不影响正常任务的性能,并表明它可以重新应用于故意去除安全性的模型。

建议的方法

ROSI 是一种简单的机制,它利用 LLM 内部的线性表示来提取与安全相关的方向,并将其纳入模型的权重中。

首先,对模型在响应无害指令和有害指令时的激活情况进行比较,然后根据差异得出 “安全方向向量”。
该向量被定义为无害和有害响应集群之间的中心差,代表了模型拒绝的一维特征。

根据该方向向量,秩 1 修正被添加到写入残差流的输出矩阵中。
具体来说,更新的目的是在矩阵中添加一个安全方向,使模型的输出始终向剔除方向略微倾斜。

这种更新非常轻便,即使大规模应用于所有层,也无需重新训练即可高效运行。
与传统的推理时操作(激活转向)不同,ROSI 可以进行永久性的、可解释的修改,从根本上稳定模型的行为。

实验

作者在多个实验中测试了 ROSI 的有效性。

首先,他们将 ROSI 应用于一组安全对齐模型(如 LLaMA、Qwen、Gemma 和 Yi),并观察到对不利指令的拒绝率显著提高。
原本较弱的模型的拒绝率提高了 13 到 18 个百分点。

此外,它们还显著提高了对越狱攻击(DAN、Harmbench、WildGuardTest 等)的抵抗能力,将攻击成功率降低了一半以下。
另一方面,MMLU 和 HellaSwag 等基准得分基本保持不变,表明正常任务的实用性得以保持。

接下来,ROSI 还被应用于 “未删减模型”(Dolphin 系统),在该模型中,安全被刻意删除,而重新注入安全方向后,拒绝率提高了 30% 以上,安全恢复到了 100%。
此外,几乎没有观察到性能下降,这证明了其作为后处理 "最后一英里安全方法 "的有效性。

相关新闻

  • 分享收藏|大数据分析师证书常见问题答疑
  • 开题报告毫无思路?百考通AI平台,一句话生成专业初稿,3分钟搞定导师认可方案!
  • GE GP100L3M54TEZ

最新新闻

  • 2026年热门的义乌拼箱代理/义乌货运代理哪家专业 - 品牌宣传支持者
  • 从FWHM到σ:高斯波形解析中的关键几何关系与物理意义
  • C++栈与堆内存对比
  • 2026年知名的环保帆布袋/龙港帆布袋定制公司选择指南 - 品牌宣传支持者
  • 2026年口碑好的白市驿亲子烧烤游玩/重庆亲子户外休闲/重庆亲子研学基地/重庆农耕体验亲子农家乐哪家值得去 - 行业平台推荐
  • 2026永康全屋定制口碑爆棚的真相

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号