当前位置：首页 > news >正文

基于子词分割与FastText的DGA检测：降低中文域名误报率

news 2026/5/26 16:04:01

1. 项目概述当DGA检测遇上中文域名在网络安全攻防的战场上域名生成算法DGA一直是攻击者手中的一把“万能钥匙”。恶意软件通过内置的DGA算法能够按需生成海量、随机且难以预测的域名用于连接命令与控制CC服务器或分发恶意链接。传统的基于静态黑名单或签名规则的防御手段在面对这种“日抛型”甚至“时抛型”域名时几乎束手无策。因此基于机器学习和深度学习的DGA检测技术通过分析域名的统计特征、字符分布或序列模式来识别其是否由算法生成成为了当前主流的防御思路。然而在实际部署中许多看似先进的检测模型却频频“误伤友军”。一个典型的场景是当系统流量中出现大量中文拼音域名如xiaomi.com,baidu.com时模型的误报率会急剧升高。这并非模型本身不够聪明而是其设计之初的“视野局限”。大多数现有研究都默认良性域名以英文单词为基础如google,facebook其模型训练和特征提取都围绕英文的语言特性如音节结构、常见字母组合进行优化。当面对拼音这种罗马化但承载中文语义的字符串时模型很容易将其与随机生成的、无意义的DGA域名混淆因为两者在字符级的n-gram分布上可能表现出相似的“随机性”。这就引出了我们项目的核心挑战如何构建一个在全球化、多语言网络环境中依然可靠的DGA检测系统特别是要显著降低对中文拼音这类非英语良性域名的误报率我们的目标不是简单地提升整体准确率而是在保持对恶意DGA域名高检出率高召回率的前提下精准地“放过”那些合法的中文域名。这要求我们的方法必须超越简单的字符级分析深入到域名的语义和结构层面。2. 核心思路拆解从字符到语义的跨越要解决中文域名的误报问题我们必须重新审视“域名”这个对象。传统的字符级嵌入方法Character-level Embedding将域名视为独立的字符序列每个字符被映射为一个独立的向量。这种方法处理英文域名尚可因为英文单词的字符组合本身承载了部分语义。但对于拼音域名如“xinhuanet”字符级模型看到的是[‘x’, ‘i’, ‘n’, ‘h’, ‘u’, ‘a’, ‘n’, ‘e’, ‘t’]它无法理解“xin”、“hua”、“net”这些有意义的音节或子词单元。模型可能会错误地将“xinhua”这种在中文里高频出现的音节组合判定为与DGA生成的随机字符串类似。因此我们的核心思路是进行两阶段升级从字符到子词Subword的语义化分割我们不再将域名视为原子字符的堆砌而是尝试将其还原为有意义的语言单元。对于拼音域名理想的分割结果应该是类似[‘xin’, ‘hua’, ‘net’]的子词序列。这步操作的关键在于一个称为“凝聚概率”Cohesion Probability的度量。简单来说我们通过分析海量域名语料库计算一个字符串片段如“xin”在整个语料中作为一个整体出现的“紧密程度”。概率越高说明这个片段越可能是一个有意义的单元如音节或单词。通过动态规划算法我们可以为任何域名找到使其子词凝聚概率之和最大的分割方案。这一步是降低误报的基石它让模型“看懂”了域名的内在结构。从静态向量到上下文感知的嵌入获得子词序列后我们需要将其转化为深度学习模型可以处理的数值向量即嵌入。这里我们选择了FastText模型而非更常见的 Word2Vec。两者的关键区别在于FastText 在训练时不仅考虑整个词还考虑词的内部结构n-gram子词。例如对于子词“xin”FastText 会同时学习“xi”、“in”、“xin”等n-gram的表示。这意味着即使遇到一个训练时未见过的罕见子词FastText 也能根据其组成的字符片段n-gram生成一个合理的向量表示极大地缓解了集外词Out-Of-Vocabulary, OOV问题。这对于处理层出不穷的新域名包括新的拼音组合至关重要。通过子词分割和FastText嵌入我们为模型提供了富含语义和结构信息的域名表示。但这还不够为了进一步提升模型的判别能力我们还引入了双模态特征融合的策略。3. 系统设计与实现细节我们的DGA检测系统是一个端到端的流水线主要包含数据预处理、特征工程、模型构建与训练三大模块。下面我将拆解每个环节的关键实现细节。3.1 数据准备与预处理为模型提供“干净粮食”高质量的数据是模型成功的首要条件。我们混合使用了来自 Alexa Top 1 Million 和 Majestic Million 的良性域名列表并只选取在两个榜单中同时出现超过150天的域名以过滤掉可能被短暂操纵或本身可疑的域名确保良性样本的纯净性。对于恶意样本我们从 DGArchive 和 UMUDGA 这两个权威开源数据集中选取了11个具有代表性的DGA家族涵盖了随机型如 Cryptolocker和字典型如 Matsnu两种生成方式以确保模型能学习到多样化的恶意模式。预处理是至关重要但常被忽视的一步核心在于处理二级域名SLD。我们移除了顶级域名TLD如.com和子域名部分专注于核心的SLD如www.google.com只取google。接下来是关键操作字母数字分离与标记化。注意许多域名包含数字如360buy.com,hao123.com。数字本身没有语义但其出现的位置和长度可能具有特征意义。简单地将数字当作普通字符处理会引入噪声。我们的处理方法是使用正则表达式将SLD字符串按字母和数字进行分割。例如example123会被分割为[‘example’ ‘123’]。然后我们将数字部分替换为特殊标记NUMX其中X代表数字串的长度。因此example123最终被预处理为[‘example’ ‘NUM3’]。这样做有两个好处一是保留了数字的长度特征长度3可能比长度1更可疑二是避免了数字串干扰后续基于字母的语义分析和子词分割。3.2 特征工程双管齐下的信息抽取特征工程决定了模型能从数据中看到什么。我们采用了双模态特征同时捕捉域名的语义信息和表层统计特征。模态A基于子词分割的FastText语义嵌入子词分割使用前文所述的凝聚概率算法对预处理后的SLD进行分割。我们通过实验发现基于4-gram即考虑最多4个字符的片段构建语料库来计算凝聚概率在中文和英文域名上取得了最佳平衡。分割后的域名如xinhuanet可能变为[‘xin’ ‘hua’ ‘net’]。FastText训练使用 Gensim 库的 FastText 实现。我们将所有良性域名和DGA域名分割后的子词序列合并构建一个大型语料库。采用 Skip-gram 模型进行训练词向量维度设置为300窗口大小为5。训练完成后每个域名通过将其所有子词的向量取平均或求和来得到最终的定长语义向量表示。模态B基于统计的词汇特征向量语义特征虽好但一些简单的统计特征对于区分随机字符串和自然语言单词非常有效。我们最初提取了十余种特征包括元音/辅音比例香农熵衡量随机性域名长度数字比例元音与辅音之间的转换频率元音-辅音-元音序列的转换频率英文字母与非英文字母如数字、连字符的转换频率为了筛选出最有效的特征并避免维度灾难我们使用LightGBM模型进行特征重要性评估。最终选定了以下四个核心特征构成词汇特征向量域名长度DGA域名长度分布可能与良性域名不同。元音/辅音转换频率自然语言单词中元音和辅音通常交替出现而随机字符串可能打破这种规律。元音-辅音-元音转换频率进一步捕捉更复杂的自然语言节奏模式。英文字母/非英文字母转换频率捕捉域名中数字、连字符等特殊字符的插入模式。这些特征在输入模型前都经过最小-最大归一化将其缩放到[0, 1]区间以加速模型收敛。3.3 模型架构CNN-BiLSTM的协同作战我们采用了卷积神经网络CNN与双向长短期记忆网络BiLSTM结合的架构并融合了上述双模态特征。整个模型结构如下图所示概念图左侧路径处理语义嵌入向量模态A卷积层CNN我们使用两层CNN来提取局部特征。第一层使用256个大小为3的过滤器捕捉相邻子词间的局部模式如常见音节搭配。第二层使用256个大小为6的过滤器旨在捕捉更长的子词序列模式。每层卷积后都接一个最大池化层用于降维并保留最显著的特征。双向LSTM层BiLSTMCNN的输出被送入一个BiLSTM层。该层能够学习域名子词序列的前后依赖关系。对于拼音域名BiLSTM可以学习到“xin”后面经常跟着“hua”这样的序列模式这对于区分有意义的拼接和随机拼接至关重要。Dropout层在BiLSTM后添加丢弃率为0.1的Dropout层随机“关闭”一部分神经元是防止模型过拟合的有效正则化手段。右侧路径处理词汇特征向量模态B这部分特征已经是手工提取的数值向量直接输入即可。特征融合与分类将CNN-BiLSTM路径输出的高级语义特征向量与右侧的词汇特征向量在通道维度上进行拼接Concatenate。拼接后的融合向量经过一个批归一化Batch Normalization层稳定训练过程。最后通过一个全连接层配合Sigmoid激活函数输出一个0到1之间的值表示该域名为DGA生成的概率。我们使用Adam优化器学习率0.001进行训练并采用Early Stopping策略在验证集损失不再下降时提前终止训练避免过拟合。4. 实验验证与结果深度分析我们按照8:1:1的比例划分训练集、验证集和测试集确保各类别良性英文、良性中文、DGA分布均衡。对比基线选择了多个经典的DGA检测模型包括纯特征工程方法如FANCI、经典的深度学习模型如Endgame LSTM、NYU CNN以及一些较新的混合模型。4.1 整体性能对比全面领先下表展示了我们的方法Proposed Method与基线模型在整体测试集上的性能对比方法准确率 (Accuracy)精确率 (Precision)召回率 (Recall)F1分数误报率 (FPR)Proposed Method0.98730.99150.98630.98890.0114EXPLAIN [23]0.98310.98720.98190.98450.0156B-ResNet [17]0.98100.98550.97980.98260.0173Endgame [24]0.97550.98210.97210.97710.0210NYU [2]0.97200.97950.96780.97360.0245从结果可以看出我们的方法在所有核心指标上均取得了最佳性能。尤为关键的是我们将误报率FPR控制在了1.14%这意味着在每100个良性域名中平均只有约1个被错误地标记为恶意。这对于一个需要7x24小时运行、处理海量查询的在线检测系统来说极大地减少了运维人员排查误报的负担。4.2 分语言性能破解中文误报难题整体性能好是否意味着“偏科”我们特别关注了模型在中文和英文良性域名上的表现。下表是召回率的对比召回率越高说明漏报越少其补集1-Recall可近似看作对该类域名的误报率方法中文域名召回率英文域名召回率Proposed Method0.98730.9886EXPLAIN [23]0.98730.9819B-ResNet [17]0.98730.9798Endgame [24]0.96200.9721NYU [2]0.94510.9678这个结果非常振奋人心。我们的方法在中文和英文域名上的召回率几乎持平0.9873 vs 0.9886且都处于最高水平。而其他方法如EXPLAIN和B-ResNet虽然在中文域名上达到了与我们相同的召回率但在英文域名上的表现却出现了明显下降下降了约0.5-0.8个百分点。这证明了我们的方法没有通过牺牲对某一类域名的检测能力来换取另一类的提升真正实现了跨语言的稳健检测。4.3 消融实验每一个设计都至关重要为了验证我们方案中每个组件的有效性我们进行了一系列消融实验。实验一双模态特征的必要性我们分别测试了仅使用语义嵌入向量A、仅使用词汇特征向量B以及两者结合AB的效果。结果明确显示双模态特征结合带来了全面的性能提升。特别是对于中文域名仅用语义特征A的误报率比结合特征AB高了7.27个百分点对于英文域名仅用词汇特征B的误报率更是高了21.77个百分点。这强有力地说明语义信息和统计特征具有高度的互补性前者让模型“理解内容”后者让模型“观察形态”两者结合才能做出最准确的判断。实验二n-gram取值对分割的影响在子词分割阶段凝聚概率的计算依赖于n-gram语料库。我们测试了n从2到6的不同取值。实验发现当n4时模型在中文域名上的召回率达到最高0.9873同时在英文域名上也保持了优异水平0.9886。当n2时虽然英文域名召回率更高0.9918但中文域名召回率降至0.9620。这表明较小的n如2更擅长捕捉英文中常见的双字母组合但对需要更长片段如拼音中的三字母音节“zhuang”才能表达意义的中文支持不足。n4是一个较好的折中点能同时有效捕捉中英文中常见的多字符语义单元。实验三FastText vs. Word2Vec我们对比了FastText和经典的Word2Vec作为嵌入模型的效果。在相同的训练设置下FastText模型最终收敛的准确率0.9873高于Word2Vec0.9845。更重要的是在测试集上Word2Vec遇到了1578个OOV词未登录词而FastText通过其子词机制完美处理了所有这些情况。这使得FastText模型在中文域名上的召回率0.9873显著高于Word2Vec0.9462。这个对比实验给了我们一个深刻的实操心得在处理词汇形态多变、新词频出的领域如域名优先选择具有子词处理能力的嵌入模型如FastText、BERT能极大提升模型的泛化能力和对罕见样本的鲁棒性。5. 常见问题与实战避坑指南在实际复现和应用这个方法的过程中你可能会遇到以下几个典型问题。这里分享我的排查思路和解决方案。问题一子词分割效果不理想特别是对于短域名或混合字符串。现象像qq.com或51job.com这类域名分割结果可能很奇怪或无法有效分割。原因与排查凝聚概率算法严重依赖训练语料库中n-gram的频率统计。如果语料库中缺乏某些特定短词或数字字母混合模式算法就无法做出正确判断。解决方案扩充和净化语料库确保用于计算凝聚概率的语料库尽可能大且纯净包含各种类型的良性域名短域名、数字域名、品牌缩写等。可以合并多个公开的顶级域名列表。设置回退机制为分割算法设置一个最小凝聚概率阈值。当所有可能分割方案的概率都低于阈值时则退回到字符级分割或者将其视为一个不可分割的整体单元。这能保证所有域名都能得到一个向量表示。人工规则补充对于一些极其常见但算法可能分割错误的域名如数字品牌360可以建立一个小型规则词典进行预处理强制将其作为一个整体子词。问题二模型在线上实时检测时延迟过高。现象离线测试性能很好但部署到DNS流量旁路检测系统时处理速度跟不上流量峰值。原因与排查流水线中的子词分割和FastText向量查询都是计算操作。特别是分割算法如果使用朴素的动态规划实现对于长域名复杂度较高。解决方案缓存与预热建立一个高频域名缓存。对于近期出现过的域名直接返回缓存的计算结果分割结果、特征向量、分类结果。可以结合LRU等策略管理缓存。算法优化实现带记忆化的动态规划算法避免重复计算相同子串的凝聚概率。对于生产环境可以考虑用C或Rust重写核心分割算法模块并利用多线程并行处理多个域名。向量查询优化将训练好的FastText模型向量加载到内存中并使用诸如faiss这类高效的相似性搜索库来管理向量加速最近邻查询如果后续有相似性比对需求的话。模型轻量化评估CNN-BiLSTM模型是否可以裁剪或蒸馏为更小的模型如纯CNN或更小规模的BiLSTM在精度损失可接受范围内大幅提升推断速度。问题三面对新型或未知DGA家族检测率下降。现象模型对训练数据中见过的DGA家族检测率很高但对一个全新的、模式迥异的DGA生成的域名可能失效。原因与排查这是机器学习模型的通病——对分布外OOD数据泛化能力不足。新型DGA可能采用完全不同的字符集、长度分布或拼接逻辑。解决方案持续数据收集与更新建立自动化管道持续从威胁情报源如DGArchive、沙箱系统、蜜罐中收集新的DGA样本并定期如每周重新训练或微调模型。采用集成学习或不确定性估计不依赖单一模型做最终决策。可以训练多个不同架构或使用不同数据子集训练的模型进行集成投票。或者使用贝叶斯神经网络等能够输出预测不确定性的模型对于高不确定性的预测将其送入更复杂的分析流程或交由人工审核。强化无监督或自监督学习在模型训练中引入大规模无标签域名数据通过自监督任务如掩码语言建模让模型学习更通用的域名表示。这样当新DGA出现时即使其标签未知其向量表示在特征空间中的位置也可能与已知恶意样本更接近。问题四词汇特征中的“转换频率”计算复杂且容易出错。现象在计算“元音-辅音-元音转换频率”等特征时代码逻辑复杂对边界情况处理不当导致特征值异常。实操心得这类特征的核心是遍历字符串识别字符类型元音、辅音、数字、其他并统计特定模式出现的次数。一个清晰的实现步骤是预先定义元音字母集合aeiouAEIOU辅音字母集合其他英文字母。将域名字符串转换为一个“类型序列”例如example123-[C, C, V, C, C, V, C, N, N, N](C辅音 V元音 N数字)。在这个类型序列上使用滑动窗口来匹配预定义的模式。例如对于“VCV”模式就是在序列中寻找[V, C, V]这样的连续子序列。最后用模式出现次数除以总的可匹配位置数如字符串长度-2进行归一化。务必注意处理字符串长度小于模式长度的情况直接返回0。这个基于子词分割与FastText嵌入的DGA检测框架其价值不仅在于针对中文域名降低了误报。更重要的是它提供了一种面向语义和结构的域名分析范式。当攻击者开始使用更复杂的字典型DGA甚至模仿特定语言如中文拼音的构词法来生成更具迷惑性的域名时传统的字符级或浅层统计特征方法将越来越力不从心。而我们的方法通过理解域名的“内在词汇”为应对下一代更隐蔽的DGA威胁打下了坚实的基础。在实际部署中你可以将此模型作为检测引擎的核心前端配合高速流量解析后端对接威胁情报丰富上下文构建一个高效、精准、自适应强的主动防御层。

查看全文

http://www.rkmt.cn/news/1393271.html