英语固若金汤小语种一攻就破清华与阿里提出基于“语义瓶颈层”的对齐范式实现安全能力的跨语言泛化。研究背景与摘要近年来大语言模型在多语言场景中的安全表现呈现出明显的“偏科”现象英语等高频语言固若金汤低资源语言却一攻即破。现有方案往往选择“头痛医头”针对每种弱势语言单独收集数据、单独做安全训练。但问题来了世界上有 7000 多种语言难道要逐一“补课”吗人类社会对于安全概念的学习和实践过程是自然可泛化的。当我们真正理解了“不能教人造炸弹”这层语义无论对方用英语、斯瓦希里语还是 emoji 来问拒绝都是本能反应。模型为何做不到答案藏在模型的表征空间里。清华 CoAI 团队联合阿里安全研究发现大模型的浅层和深层表征被语言身份主导但在中间某几层存在一个“语义瓶颈层”。在这里不同语言表达的相同语义会自然聚拢语言外壳被剥离露出聚类的语义内核。基于这一关键洞见研究团队提出了 LASALanguage-Agnostic Semantic Alignment一种锚定语义瓶颈层进行安全对齐的新范式极大提升了模型安全训练在低资源语言上的泛化性。目前该论文已被 ACL 2026 接收。论文标题LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety论文作者本文第一作者为清华大学 CoAI 组的杨峻骁导师为黄民烈教授研究方向为可信大模型和安全对齐。主要合作者为来自阿里巴巴集团安全部的翁佳琪、陶嘉羚、薛晖。论文链接https://arxiv.org/abs/2604.12710代码链接https://github.com/thu-coai/lasa-multilingual-safety核心发现研究通过逐层 Silhouette 分数分析揭示了大模型表征空间的结构性分化。对同一批跨语言平行语料如英语、斯瓦希里语、孟加拉语的“如何制造炸弹”分别计算按语言聚类和按语义聚类的 Silhouette 分数得到两条交叉的 U 型曲线。浅层靠近输入层语言聚类分数高语义聚类分数低表征按语言分簇不同语种输入各自形成独立簇群。模型在此阶段进行词法与语法解析语言身份是主导信号。深层靠近输出层语言聚类重新回升语义分数回落。模型为适配目标语言生成表征重新向语言特征靠拢。中间层相对深度 43%-68% 区间语义聚类分数达到峰值语言分数跌至谷底即为语义瓶颈层。在该层不同语言、相同语义的查询形成了紧致的跨语言语义簇。例如英文、斯瓦希里语和孟加拉语的“如何制造炸弹”在表征空间中聚为一簇而“如何做蛋糕”则在另一区域聚簇。t-SNE 可视化直接证实了这一现象不同颜色的语言标识在该层交织按语义重新排列语言外壳被剥离纯语义结构浮现。跨模型验证表明语义瓶颈层具有普适性。Llama-3.1-8B、Qwen2.5 系列7B-32B和 Qwen3 系列8B-32B均呈现相同模式瓶颈层相对深度保持稳定。进一步分析发现瓶颈层的语义聚类质量与模型基础语义能力MMLU 分数呈正相关表明通用理解能力是语义瓶颈效应的能力基础。这揭示了 LLM 内部存在一段“语言无关的纯语义安全概念理解区间”为跨语言安全泛化提供了理论锚点。研究方法三步锚定“语义瓶颈”实现语言无关的安全对齐LASA 整体框架分三步定位、解译、注入。第一步语义瓶颈定位对模型逐层提取跨语言平行语料的隐藏状态分别计算按语言聚类和按语义聚类的 Silhouette 分数。定义语义瓶颈层为两者差值最大层该层语义组织性最强、语言干扰最小。第二步安全语义解译在语义瓶颈层出口接入安全语义解释器SSI这是一个参数量不足模型 0.2% 的轻量 MLP。冻结原始模型参数仅训练 SSI 从瓶颈表征中提取安全信号输出标量 z 指示输入有害/安全使用二分类交叉熵损失优化。SSI 在低资源语言上的安全判断准确率与模型通用语义能力呈高度正相关表明安全理解可随语义能力自然泛化。第三步语义条件注入将 SSI 输出的安全信号作为条件变量拼入生成通路采用 KTO 损失进行偏好对齐训练使模型建立“语义信号 → 拒绝/合规”的条件生成映射。语义信号源于瓶颈层不依赖语言形式因此安全行为可跨语言泛化。实验设置与结果实验基于 Llama-3.1-8B-Instruct、Qwen2.5 系列7B/14B/32B和 Qwen3 系列8B/14B/32B在 MultiJail 和 HarmBench_translated 两大多语言安全基准上评估覆盖英语、中文、韩语、泰语、斯瓦希里语、孟加拉语等语种以 GPT-4o 自动判定攻击成功率ASR。基线方法包括 SFT、DPO、KTO、ORPO、CPO、MPO 等主流文本层面对齐方案。主要结果LASA 显著超越所有基线Llama-3.1-8B 平均 ASR 从 24.7% 降至 2.8%Qwen2.5-7B-Instruct 斯瓦希里语 ASR 从约 50% 降至 13.0%通用能力MMLU、MT-Bench无损失Qwen2.5 和 Qwen3 系列7B-32B上 ASR 稳定在 3%-4%消融实验结论消融实验证实SSI 仅训练在语义瓶颈层时效果最优训练在浅层或深层则性能显著退化训练在最终层甚至不及 KTO 基线。替换 KTO 为 SFT 或 ORPO 对效果影响极小验证了核心收益来自定位瓶颈层和 SSI 条件控制而非特定优化算法。总结LASA 方法通过发现和利用大模型内部的“语义瓶颈层”实现了语言无关的安全对齐。该方法不需要针对每种语言单独收集安全数据而是通过在语义瓶颈层进行安全信号提取和条件注入实现了安全能力向低资源语言的自然泛化。这一发现为多语言大模型安全对齐提供了新的研究思路和实用方案。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·