当前位置: 首页 > news >正文

上海AI Lab:轻量级智能体安全对齐框架

📖标题:AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
🌐来源:arXiv, 2605.29801v1

🛎️文章简介
🔸研究问题:如何解决开放世界AI智能体面临的新型安全风险及现有对齐框架部署成本高的问题?
🔸主要贡献:论文提出了轻量可扩展的AgentDoG 1.5框架,仅用千条样本训练小模型即实现媲美前沿大模型的安全防护效果。

📝重点思路
🔸更新三维安全分类体系,针对Codex和OpenClaw场景扩展风险源、失败模式及现实危害标签,构建ATBench基准家族以支持细粒度诊断。
🔸设计分类引导的数据引擎,利用影响力函数净化数据,筛选出约1k条高价值样本,结合思维链增强与软平衡策略构建高质量训练集。
🔸采用SFT与GDPO强化学习两阶段训练,通过多维奖励解耦优化,使0.8B至8B参数量的轻量模型具备精准的安全判断与归因能力。
🔸构建有限状态模拟环境替代Docker容器,将RL训练资源开销降低两个数量级,支持单机万级并发,并利用模型过滤SFT数据及提供RL奖励信号。
🔸部署无训练在线护栏系统,在智能体回复前进行轨迹级审计,实时拦截跨步骤累积风险,兼顾低延迟与高安全性。

🔎分析总结
🔸AgentDoG 1.5-4B在R-Judge和ATBench上准确率分别达92.2%和72.4%,性能对标GPT-5.4等闭源模型,显著优于LlamaGuard等传统护栏。
🔸细粒度诊断能力突出,平均诊断得分55.2%,远超通用大模型,证明专用轨迹级监督比单纯扩大模型规模更有效。
🔸在SFT阶段使用AgentDoG过滤数据,可将危害评分从57.49降至20.32,同时保持函数调用能力;联合SFT与RL训练进一步提升了安全与效用的平衡。
🔸作为在线护栏时,4B模型将OpenClaw的不安全交付率从56.25%降至18.75%,且首字延迟低于0.3秒,验证了实际部署的可行性。
🔸轻量化环境在万级并发下内存占用稳定在2.5GB以内,证明了该框架在资源受限条件下的极高可扩展性。

💡个人观点
论文打破了“安全对齐依赖大模型”的固有认知,通过精细化的数据提纯与结构化诊断任务,将复杂的安全推理能力成功蒸馏至极小参数模型。

http://www.rkmt.cn/news/1492150.html

相关文章:

  • 微信公众号文章批量下载工具
  • 2026好用视频去水印工具推荐:热门视频水印去除利器实测
  • 如何提升产学研合作项目的落地成功率?
  • MAA明日方舟助手:一键解放双手的智能自动辅助工具完全指南
  • 终极解密指南:5分钟解锁网易云音乐NCM格式,实现音乐自由播放
  • 协议映射实战:用Python构建无损彩虹通道
  • 硬盘文件系统:FAT32、NTFS与exFAT
  • N皇后遗传算法实战:从Matlab到Python的工程化落地
  • 用系统时间一键生成梅花易数三卦的Python小工具
  • Pandas多维聚合生产实践:从groupby到高管看板的工程化落地
  • 石家庄市海尔空调维修师傅电话|各区金牌师傅,靠谱选欧米到家 - 欧米到家
  • 遗传算法实战调优:编码选择、算子配置与收敛诊断
  • 2026 深圳厨卫屋面地下室漏水测评,苏易修缮 9.98 分行业领先 - 吉修匠
  • 聊天层安全:将IM工具重构为实时可编程安全防线
  • CAD打印样式是黑白的,但尺寸标注预览打印为彩色
  • 太阳能舆情分析实战:Python+NLP情绪识别与业务落地
  • YouTube视频问答机器人:轻量级本地化视频内容理解方案
  • 金价迎来高位区间 盘点沧州靠谱黄金回收商家与套路 - 润富黄金回收
  • 易基因:项目文章|CDD/IF9.6:上海十院团队RIP-seq等揭示RNA结合蛋白TIA1在肝脏疾病发生发展中的表观调控机制
  • N皇后问题的遗传算法Python工程实践与调试指南
  • 遗传算法求解N皇后问题的Python实战与工程优化
  • 远程办公防乱传、跨网防断点:机密文件同步工具选型的 4 个硬指标
  • AI编程17-PLC开发太慢?Vibecoding让周期从2周缩至3天
  • 机器学习生产化:模型上线后的系统性风险与工程治理
  • 国内合肥起名馆排名.合肥起名老师推荐.合肥起名大师推荐 - 资讯速览
  • Python+Pygame迷宫游戏源码包:集成BFS/A*/DFS自动寻路,含地图生成、角色控制与完整运行说明
  • 2026年第18届全国大学生广告艺术大赛
  • 标识中台30讲⑦:IMP(标识中台)为什么能承载极端复杂的赋码场景?
  • 2026年新疆旅游定制服务商选型指南:从合规安全到千人会展一站式解决方案 - 精选优质企业推荐官
  • 挑战 Linus 的“禁区”:从 2026 LSFMM+BPF 大会看每 CPU 页表的性能逆袭