Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency-尧图网站建设

📅 发布时间：2026/7/4 4:58:53

文章核心总结与翻译

一、主要内容

文章聚焦大语言模型（LLMs）的并发任务处理安全隐患，提出基于任务并发的越狱攻击框架JAIL-CON。首先验证LLMs能高效处理单词级并发任务（良性任务处理性能接近顺序执行），但有害任务与良性任务并发时，会显著降低安全护栏的过滤概率。JAIL-CON通过迭代组合有害任务与辅助任务、两种并发执行模式（有效任务并发CVT/空闲任务并发CIT）及影子判断，实现对6种主流LLMs的高效越狱，无护栏时平均攻击成功率0.95，有护栏时有效攻击成功率0.64，显著优于现有方法。

二、创新点

首次提出单词级任务并发交互范式，让相邻单词承载不同意图，揭示LLMs并发处理能力及隐藏的安全风险。
设计自动越狱框架JAIL-CON，通过迭代构建多样化并发任务，实现高效且隐蔽的越狱攻击。
提出CVT和CIT两种并发执行变体，单独使用也能达成强攻击效果，且并发答案更难被护栏检测，提升攻击隐蔽性。

三、核心部分翻译（Markdown格式）

Abstract

尽管大型语言模型（LLMs）在多个领域表现出色，但它们仍易被滥用生成有害内容，各类越狱攻击进一步放大了这一风险。现有越狱攻击主要遵循顺序逻辑，LLMs需逐一理解并回答每个给定任务。然而，作为顺序场景自然延伸的并发机制，在该领域却未得到充分关注。本文首次提出一种单词级方法，使LLMs支持任务并发，其中相邻单词可编码不同意图