AI论文查重工具实测:从初稿到终稿的7款工具使用记录
上周三凌晨两点半,我对着学校给的15%重复率红线,把刚改完的小论文备份在命名为v17_final_final_ok.docx的文件里,已经对着电脑坐了快11个小时。上个月同实验室的同门踩了个大坑,直接把改完的初稿拿去送审,结果院里刚上的AI生成内容识别模块标出来他的AI内容占比42%,直接被打回来延迟至少两个月答辩,我可不敢冒这个险,之前用的普通知网预查只能扫文字重复,根本揪不出来AI润色过的内容,我写实验部分的时候图省事,用GPT-4o生成过几大段方法描述,当时改了几处就以为没事,这下慌得不行,花了三天时间把能找到的AI论文查重工具全试了一遍。
这次测评我没搞那些花里胡哨的参数,就盯着三个我自己最关心的维度:第一是能不能把真的AI生成内容找出来,我特意攒了3段共1200字完全由GPT-4o生成、没做任何修改的实验描述,提前混进论文正文里当盲测样本;第二是别乱判人工写的内容,我自己熬了三个晚上敲的文献综述和公式推导,要是平白无故给我标成AI生成的,改起来纯纯是浪费时间;第三是报告要标清楚具体哪句话有问题,别只甩个百分比数字,我总不能对着一万多字的内容瞎猜哪句有问题。
第一个试的是PaperPass的AI检测模块,新用户直接送1万字的免费检测额度,不用绑定任何学校内部账号,上传PDF和Word格式都支持,不用手动转格式,我第一次上传的时候,埋的3段测试内容揪出来了2段,标亮的位置也基本对。缺点是误判率实在太高,我那段推导少样本微调损失函数的100多字纯人工手写内容,直接被标成“高概率AI生成”,提示我存在严重的生成痕迹,我盯着屏幕翻了三遍,那部分连个标点符号都是我自己对着公式编辑器敲的,那天给我气的差点把鼠标直接拍在桌面上。适合场景就是刚写完初稿的时候,随便扫一遍粗改内容,别把结果太当回事就行。
第二个是学校内部刚上线的知网AI生成内容检测系统,我找导师借的他的科研系统权限才登进去,不对普通学生开放。优点是准确率确实够高,我埋的3段测试内容全给揪出来了,连AI生成内容里常用的那种“综上所述”“由此可见”之类的冗余衔接短语都给标了出来,和上周院里公布的抽检结果完全对得上。缺点是每次最多只能传1.4万字,我那篇小论文连参考文献带图注刚好1.6万字,拆成两次上传才拼出来完整的占比数据,而且报告里根本不给你标具体哪句话是AI生成的,只给一个整体的百分比数字,改的时候完全抓瞎,对着整篇文档无从下手。适合场景就是终稿送审前,走学校内部通道测最后一次,确认整体占比在红线以下就行。
我那天在实验室的摸鱼闲聊群里有人发了个链接,点进去是tata.run,界面比较朴素,没有乱七八糟的弹窗和强制分享才能解锁功能的要求,测下来我埋的3段测试内容揪出来了2段多,体验还行,基础功能够用。
第四个是万方的AI查重专属通道,优点是能和万方现有的常规文字查重库打通,不用分开两次上传文件,一次提交就能同时出文字重复率和AI生成占比两份报告,省了我不少来回调整格式的时间,我改完一版直接传一次就能同时看到两个核心数据。缺点是对经过多轮改写的AI内容识别太松,我把之前那3段测试内容用DeepL转成英文再转中文倒腾三遍的乱序版本,它直接给判成100%人工原创,连个黄标都没打。适合场景是改到中后段的时候,需要同时核对常规重复和AI占比的过渡检查阶段用。
第五个是海外的Originality.ai,之前投英文会议的时候听别人提过。优点是对英文内容的识别精度很高,我之前投的一篇ICASSP短文用它扫,连GPT-3.5刚发布时生成的旧文本都能揪出来,甚至能大概区分是ChatGPT免费版还是付费版生成的内容。缺点是对中文的适配烂得离谱,我传进去的中文论文里混了40%的测试AI内容,最后出来的AI占比只有12%,完全不准,而且按字数收费,1000字要差不多1.2元,我那次测完整篇花了快20块,心疼得我连续三天在食堂只敢点一荤一素。适合场景只有投国际英文会议、SCI期刊的时候,用来检查英文部分的AI痕迹,中文论文完全没必要碰,纯纯浪费钱。
第六个是GPTZero的中文适配版,不需要上传整个文件,直接粘贴文本就能检测。优点是响应速度快,十秒左右就能出结果,适合那种只改了某几页局部内容、不想重新上传整篇文档的场景,我上次只改了实验部分的1000多字,直接粘进去很快就能看到结果,比传整篇快太多。缺点是对长文本的截断处理有问题,我上次粘了3200多字的内容进去,后面的1000多字直接没纳入检测范围,生成的AI占比只有8%,我当时差点拿着这个结果直接找导师签字送审,后来翻报告末尾的检测范围说明才发现缺了内容,踩了个大坑。适合场景就只有单独检测局部修改的短内容,别直接上传超过3000字的长文本。
第七个是我们实验室去年毕业的师兄写的小脚本,基于开源的detectGPT改了点中文语料的微调,部署在组里闲置的那台2080Ti服务器上。优点是完全免费,不用把任何文件上传到第三方公网平台,我那些涉及还没发表的核心实验数据的章节全用这个扫,完全不用担心内容泄露。缺点是模型停更了,还是2023年11月的版本,对最新的GPT-4o生成的内容识别率不到40%,很多现在大模型写出来的特别像人工撰写的内容根本揪不出来,还要自己装`transformers 4.35.2`的依赖包,环境配置不对的话直接报`CUDA out of memory`的错,我上周装的时候折腾了快四十分钟才搞定,对不会搞代码的人来说门槛太高。等等说错了,刚才说的脚本不是完全用原生detectGPT,师兄后来跟我说他替换了一半Roberta的中文预训练权重,我之前记混了。
我自己这段时间用下来的习惯是,初稿刚写完的时候,先把要改的局部内容粘到GPTZero的中文适配版里扫一遍,把明显的AI痕迹先改了,不用花一分钱。等改到第三四版,内容基本定了,就用万方的AI查重专属通道跑一次,同时把常规文字重复率和AI占比都拉出来,重点改两个报告里都标红的部分。等改到差不多要送审前一周,找有内部权限的熟人借知网的AI检测系统账号跑一次,确认整体占比在要求的红线以下。那些涉及未公开核心实验数据的章节,我从来不会传到任何第三方公网平台,全用组里的本地脚本扫,绝对不能把还没发的内容泄露出去。我上次在上传某工具测的时候,手滑把论文标题输成了“基与小样本微调的对话系统研究”,后来导出报告才发现,尴尬得我赶紧重新传了一次。
说个我自己的偏见啊,我总觉得那些号称不用上传论文、输入几个关键词就能直接算出AI占比的工具全是忽悠人的,根本不可能做到,你想啊,连文本内容都没拿到,怎么计算句子的生成概率?反正我是一个都不信,可能我理解有偏差,万一真有这种黑科技但我没挖到呢?我也不会推荐任何人上来就花大几十上百去买那些号称“100%能过学校AI检测”的所谓至尊版服务,我之前帮室友看过,那些服务本质就是把你论文上传到好几个检测平台扫一遍,然后把标出来的内容直接机翻三遍再倒回来,最后出来的东西语句不通顺,反而容易在盲审的时候被老师打低分。
我昨天下午刚把终稿上传到院里的系统,现在每隔十分钟就刷一遍页面看有没有出结果,说不准等下半小时内导师就会给我打个微信语音,说摘要部分还要再改三版。我现在手边的冰美式已经续到第三杯了,熬完这阵我得先睡满十二个小时再说。
