YOLOv12创新改进 | TIP一区 2025 | 涨点卷积改进篇 | 引入SFMB空间和频率增强 Mamba模块, 通过空间多尺度、通道增强和频域建模的互补机制,助力YOLOv12高效涨点
一、本文介绍
本文给大家介绍一种SFMB 模块改进YOLOv12网络模型,可在保持模型整体结构和推理效率基本不变的前提下,显著增强特征表达能力。SFMB 通过空间多尺度建模、通道增强和频域特征强化,弥补了 YOLOv12 主要依赖卷积、全局建模能力不足的问题,使网络能够同时关注局部细节与全局上下文信息,从而提升小目标、低对比度目标及复杂背景下的检测性能。得益于 Mamba 的线性复杂度特性,该改进在计算开销可控的情况下提高了检测精度和鲁棒性,并增强了模型在多尺度和多场景目标检测任务中的泛化能力。
🔥欢迎订阅我的专栏、带你学习使用最新-最前沿-独家YOLOv12创新改进!🔥
YOLOv12专栏改进目录:YOLOv12改进包含各种卷积、主干网络、各种注意力机制、检测头、损失函数、Neck改进、小目标检测、二次创新模块、A2C2f二次创新、独家创新等几百种创新点改进。
全新YOLOv12改进专栏订阅链接:全新YOLOv12创新改进高效涨点+永久更新中(至少500+改进)+高效跑实验发论文
本文目录
一、本文介绍
二、SFMB 模块介绍
2.1 网络结构图
2.2 SFMB模块的作用
2.3 SFMB模块的原理
2.4 SFMB模块的优势
三、核心代码
四、手把手教你配置模块和修改tasks.py文件
1.首先在ultralytics/nn/newsAddmodules创建一个.py文件
2.在ultralytics/nn/newsAddmodules/__init__.py中引用
3.修改tasks.py文件
五、创建涨点yaml配置文件
六、正常运行
二、SFMB 模块介绍
摘要:多模态图像融合(Multi-Modal Image Fusion,MMIF)旨在整合来自不同模态的互补图像信息,以生成信息更加丰富的融合图像。现有基于深度学习的 MMIF 方法通常采用卷积神经网络(CNN)或 Transformer 进行特征提取。然而,CNN 受限于局部感受野,难以建模长程依赖关系,而 Transformer 又存在计算复杂度高的问题,导致整体性能和效率受限。近年来,Mamba 凭借其线性复杂度的长程依赖建模能力,在 MMIF 任务中展现出良好的潜力。然而,原始 Mamba 缺乏对空间域和频域信息的全面感知,而这两类信息对于多模态图像融合至关重要。此外,已有研究表明,将图像重建(Image Reconstruction,IR)作为辅助任务有助于提升 MMIF 性能,但如何高效、有效地利用该辅助任务仍然具有挑战性。为解决上述问题,本文提出了一种新的多模态图像融合框架——Spatial-Frequency Enhanced Mamba Fusion(SFMFusion)。具体而言,本文首先设计了一种三分支结构,将 MMIF 与 IR 任务进行协同建模,以更好地保留源图像的完整内容。随后,提出了 空间–频率增强
