当前位置：首页 > news >正文

朱雀大模型检测对降AI改写内容的适配性实测与原理拆解

news 2026/6/3 21:36:00

上周组会刚被导师揪着说小论文初稿里AI生成痕迹太重，必须过学院指定的朱雀大模型AI内容检测，不然连送外审的资格都没有。一开始我图省事，点开朱雀的网页翻了半天，想找有没有一键降AI改写的按钮，毕竟之前用过几个别的检测工具，点完出报告直接附带改写功能。翻了二十多分钟没找着入口，甚至去翻了后台的接口文档片段，才反应过来之前传的“朱雀大模型检测支持降AI改写”完全是误读，根本不是工具自带功能，是大家在问“它认不认经过第三方降AI改写后的内容”。

最初的疑问：朱雀检测自带降AI改写功能吗？

我当时的操作完全是急中生乱，把一段GPT4o生成的200字关于BERT微调的实验描述直接扔到朱雀检测里，直接出98%的AI生成概率，红色标了整段。我当时急着改，以为检测工具集成改写是标配，毕竟之前用的某普通检测平台，出报告之后右下角直接有个“一键改写降AI”的按钮，虽然改得狗屁不通但好歹有这个功能。

我对着朱雀的前端代码扒了半天，看它的静态资源路径是/static/ai-detect/report-v3.2.js，翻了所有接口的定义，只有三个核心接口：提交文本接口、生成报告接口、导出报告接口，连个POST /rewrite 的路由都找不到。后来问了实验室负责对接学院信息化系统的师兄，才明确朱雀的定位是纯AI生成内容鉴别工具，从第一版上线的时候就没有设计改写功能，所谓的“支持降AI改写”的疑问，本质上是用户在问“经过降AI改写操作后的内容，能不能通过朱雀的检测，会不会被识别出改写痕迹”。

我之前还踩了个完全没必要的坑，以为是我普通用户的权限不够，特意找实验室借了管理员测试账号登进去翻了所有功能菜单，所有标签页只有“样本库管理”“检测统计”“报告导出”三个选项，半毛钱改写相关的模块都没有，白折腾了一个多小时，最后还被负责运维的师兄警告不要随便碰测试账号的后台。

核心机制拆解：朱雀大模型检测的识别逻辑

为了摸透它的识别逻辑，我找了同实验室做NLP文本取证的师弟，一起把朱雀的检测模型输出的中间特征做了反推，因为我们自己上传的自定义小数据集，能从接口返回的冗余字段里拿到一些隐藏的特征向量维度。它完全不是普通的那种统计n-gram重复率的工具，市面上多数廉价降AI改写手段比如同义词替换、语序颠倒，对它几乎起不到任何作用。

它的识别逻辑核心分三个维度，第一个是LLM生成文本的隐式概率分布偏移，大模型生成文本的时候，每个token的下一个词预测概率分布是有固定偏好的，比如GPT输出“结果表明”的时候，后面跟“该方法有效”的概率是普通人类写的3倍以上，朱雀的基础模型是用了十亿级的公开LLM生成文本和人类写的学术文本做的对比预训练，能捕捉到这种token级的概率偏移，不是靠关键词库比对。我当时写的用来计算token概率分布偏移的小代码片段，一开始跑出来的数值全在0.1左右，远低于预期，后来手滑盯着代码看了半天才发现把torch.std写成了torch.mean，属于是低级到不好意思说的笔误。

from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 加载通用预训练的人类文本偏好统计模型 tokenizer = AutoTokenizer.from_pretrained("distilgpt2") model = AutoModelForCausalLM.from_pretrained("distilgpt2") def calculate_prob_shift(text: str) -> float: inputs = tokenizer(text, return_tensors="pt") with torch.no_grad(): outputs = model(**inputs, labels=inputs["input_ids"]) # 计算每个位置下一个token的预测熵标准差 shift_score = torch.std(outputs.loss.view(-1)).item() # 朱雀检测中shift_score大于0.7即判定为高概率AI生成 return round(shift_score, 3)

当然我没拿到朱雀的模型权重，这个数值只是我用开源模型跑出来的近似结果，实际阈值可能有调整，这点我目前还没有办法完全验证。

第二个维度是段落级的语义连贯性断层，很多降AI改写工具为了打散AI痕迹，会强行把长句拆成短句，或者插入无关的修饰词，反而会出现逻辑跳转的时候的语义熵异常，朱雀的模型对这个维度的权重占比达到40%，我之前做了个小测试，用纯同义词替换改出来的文本，语义熵比人类写的高27%，直接就被标记出来了。第三个维度是专属水印的识别，朱雀跟很多高校的校内大模型平台是打通的，很多学生用校内部署的大模型写初稿的时候，文本里会被嵌入隐形的语义水印，不是字符替换的那种，是调整几个低权重token的顺序，这种不管你怎么改，只要核心语义不换，水印都能被提取出来。

实测验证：降AI改写内容的通过率测试

我专门准备了20份样本，每份都是2000字左右的计算机方向学术文本，其中10份是GPT4o直接生成的，另外10份是人类原创的，然后用市面上常见的几种降AI改写方案分别处理，再上传到朱雀检测里看通过率。前前后后试了七八种不同的降AI改写方案，包括自己写的同义词替换Python脚本、通义千问的“改写为学术文本”模式、Claude 3.5的降AI生成痕迹功能、开源的LLM改写工具Llama3-70B微调版、中日英三语互译回译法、找同实验室的师弟逐句手动改写，还有那种专门的AI降重网页。

实测结果的反差比我预想的大很多，首先我自己随便写的同义词替换脚本，改完的文本shift_score平均在0.91，朱雀检测AI概率平均92%，全挂，完全没用。然后通用大模型改写的，就是直接给AI指令“帮我改写这段文字，完全消除AI生成痕迹”，改完的内容AI概率平均在68%，8份样本里有6份还是被判为AI生成，只有2份刚好低于30%的及格线。然后指定学术风格的大模型改写，改完的AI概率平均在47%，通过率升到了50%，但还是有一半没过。回译法更惨，改完的文本逻辑混乱，语义熵直接飙升，AI概率平均81%，全挂，我当时测完直接骂了一句什么垃圾方法，之前网上传的神乎其神，结果一点用没有。

# 这是我一开始写的完全没用的同义词替换脚本 import synonyms def naive_replace(text: str) -> str: res = [] for word in text.split(" "): syns = synonyms.nearby(word)[0] if len(syns) > 0: res.append(syns[0]) else: res.append(word) return " ".join(res)

别问我怎么想的写这种垃圾脚本，当时熬夜熬昏头了，以为换个同义词就能把AI痕迹消掉，跑出来的文本连专业术语都换成同义词了，把“Transformer”换成了“变换器”，导师看了直接给我打回来了重写，属于是两头不讨好。等等我说反了，那份被判35%AI概率的人工改写内容，不是因为保留了原句的结论句式，是我改写的时候图省事，直接把AI生成的参考文献部分原封不动粘进去了，参考文献的格式刚好是LLM最常用的输出模板，直接拉高了整体的AI概率，当时排查了半天才找到原因。

最后通过率最高的是人工逐句重写，10份样本里有9份的AI概率低于20%，剩下1份就是刚才提到的粘错参考文献的样本，被判了35%的AI概率。最离谱的是那个开源Llama3-70B微调的降AI模型，改完之后的文本，我自己读着都不像正常人写的，朱雀检测直接给了97%的AI概率，后来查原因才发现，这个微调数据集里的样本全是朱雀检测之前标记过的非AI文本，模型输出的分布反而更集中，直接被识别出来了。

实践踩坑：改写后过检的几个无效操作

第一个无效操作是随便调整语序插入无关内容，很多人为了打乱AI的分布，故意在段落里加很多没用的修饰词，比如在“实验结果表明”前面加“通过我们团队在实验室中耗时三个月的反复迭代与多次不同场景下的验证，最终的”，这种操作反而会让语义熵直接上升，朱雀检测的断层识别模块直接就把这段标成异常，反而AI概率更高。我之前有个样本，本来AI概率是40%，插了一堆废话之后直接升到87%，折腾了半天反而更糟。

第二个无效操作是用同一个大模型反复改写同一段内容，你第一次改完可能AI概率是50%，反复改三次之后，大模型的输出分布反而会收敛到同一个窄区间里，下一个token的预测熵变得极低，朱雀一抓一个准。我之前试过改五遍同一段内容，最后AI概率反而升到了94%，当时直接傻了，完全搞反了操作的效果。

第三个无效操作是相信所谓的“朱雀内置一键改写”的第三方服务，朱雀本身没有任何改写功能，你要是把未降重的文本直接上传，它只会出检测报告，根本不会给你改好的版本，之前我有个同学花了五十块钱找第三方声称“对接了朱雀内置改写功能”的服务商，结果传上去之后检测报告出来，啥改写内容都没有，纯纯交了智商税。

我到现在也没搞懂朱雀的语义水印提取的具体算法是什么，试了很多种打乱语序的方法都没能把水印消掉，后续可能要专门做几轮水印消融实验才能摸清楚规律。上周终于把改完的稿子上传到学院的检测系统，AI概率是17%，过了，但是提交完之后我盯着屏幕看了半天，感觉我改的内容比我自己从零写一遍花的时间还多，下次再也不敢图省事用大模型写初稿了，纯纯给自己找罪受。

查看全文

http://www.rkmt.cn/news/1456083.html