当前位置：首页 > news >正文

LLM智能体加持YOLO26-MoE：无人机绝缘子故障检测新方案

news 2026/5/25 11:07:23

本文核心贡献如下提出YOLO26-MoE架构在YOLO26高分辨率P3检测分支中嵌入稀疏混合专家模块替代静态卷积实现针对不同缺陷形态的自适应特征细化提升绝缘子微小故障破损、闪络的判别能力。开发LLM智能体优化流程设计工具增强的大语言模型智能体自动执行超参数搜索Optuna、最终训练、评估与可视化实现端到端自动化调优提高模型性能与实验可重复性。取得SOTA检测性能在自建无人机绝缘子数据集上YOLO26-MoE达到mAP0.50.9900mAP0.5:0.950.9515显著优于YOLOv10/v11/v12/v26各系列变体统计检验证明改进显著。实现有利的精度-复杂度权衡模型参数量15.66M、GFLOPs 58.8复杂度介于YOLO26s与YOLO26m之间却超越更大基线证明MoE模块以可控计算代价换取检测精度增益。博主简介AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者深耕计算机视觉与深度学习领域专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践旨在打通从学术研究到产业应用的最后一公里。核心专长与技术创新YOLO算法结构性创新于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践为行业提供了具备高参考价值的技术路径与完整解决方案。技术生态建设与知识传播独立运营“计算机视觉大作战”公众号粉丝2.2万成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码显著降低了计算机视觉的技术入门门槛。行业影响力与商业实践荣获腾讯云年度影响力作者与创作之星奖项内容质量与专业性获行业权威平台认证。全网累计拥有8万垂直领域技术受众专栏文章总阅读量突破百万在目标检测领域形成了广泛的学术与工业影响力。具备丰富的企业级项目交付经验曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案驱动业务智能化升级。未来方向与使命秉持“让每一行代码都有温度”的技术理念未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新共同推动技术边界以坚实的技术能力赋能实体经济与行业变革。原创自研系列26年计算机视觉顶会创新点《YOLO26魔术师》原创自研系列25年计算机视觉顶会创新点《YOLOv13魔术师》《YOLOv12魔术师》《YOLO11魔术师》《YOLOv8原创自研》《YOLOv5原创自研》《YOLOv7原创自研》《YOLOv9魔术师》《YOLOv10魔术师》应用系列篇《YOLO小目标检测》《深度学习工业缺陷检测》《YOLOv8-Pose关键点检测》23、24年最火系列加入24年改进点内涵100优化改进篇涨点小能手助力科研好评率极高《YOLOv8魔术师》《YOLOv7魔术师》《YOLOv5/YOLOv7魔术师》《RT-DETR魔术师》0.原理介绍论文A novel YOLO26-MoE optimized by an LLM agent for insulator fault detection considering UAV images摘要电力线路绝缘子的检测对于确保电网可靠性和防止因绝缘部件损坏或退化引发的故障至关重要。近年来无人机结合基于深度学习的视觉系统已成为实现该过程自动化的有效解决方案。然而由于缺陷区域小、故障模式异质、背景复杂以及成像条件多变绝缘子故障检测仍然具有挑战性。为应对这些挑战本文提出了一种优化的YOLO26-MoE这是一种新颖的目标检测架构它将稀疏混合专家模块集成到 YOLO26 检测器的高分辨率分支中。所提出的改进能够针对细微和多样化的故障模式进行自适应特征细化同时保持了单阶段检测框架的效率。超参数优化、最终训练和评估通过一个工具增强的大语言模型智能体进行协调。所提出的模型达到了 0.9900 的 mAP0.5 和 0.9515 的 mAP0.5:0.95性能优于最新的 YOLO 版本。这些结果表明所提出的模型为基于无人机的绝缘子故障检测提供了一种有效且可靠的解决方案。关键词绝缘子故障检测无人机巡检YOLO26混合专家大语言模型1. 引言电力系统的可靠运行取决于其绝缘部件的状况。绝缘子负责保持导体与接地结构之间的电气隔离防止电流泄漏并确保电力传输的安全与效率[1]。然而绝缘子持续暴露于污染、紫外线辐射、湿度和机械负荷等环境压力下这可能导致表面退化、开裂或闪络[2]。这些故障若不能及时发现可能导致局部放电、停电甚至大规模断电[3]。因此准确及时地检测故障绝缘子是维持电网稳定和最小化维护成本的关键任务。传统检测方法包括视觉评估和人工热成像或紫外成像通常劳动密集、主观性强且可扩展性有限。近年来深度学习已成为自动化及增强绝缘子故障检测的强大方法[4]。通过基于卷积和Transformer的神经网络深度学习模型能够从红外、紫外和可见光图像中提取复杂的空间和光谱特征实现对缺陷的高精度分类和定位。这些模型减少了人工干预促进了电网智能状态监测系统的开发[5]。无人机的部署通过能够在广阔且通常难以进入的地形上快速采集数据进一步革新了电力线巡检[6]。无人机搭载的摄像头可以从多个角度和距离捕捉绝缘子的高分辨率图像为自动化分析提供了丰富的视觉信息。然而无人机获取的图像带来了独特的挑战包括变化的光照条件、复杂的背景、运动模糊以及多样化的绝缘子方向这需要鲁棒且自适应的检测算法[7]。在深度学习架构中YOLO系列检测器因其在准确性和计算效率之间的良好权衡已广泛应用于实时目标检测任务[8]。YOLO的后续迭代引入了特征金字塔网络、注意力机制和无锚框检测头等架构创新逐步提高了跨不同领域的检测性能。包括YOLOv8及之后的版本在内的最新版本在通用目标检测基准上已展现出最先进的成果但它们在绝缘子故障检测等专业任务中的应用仍是一个活跃的研究领域[9]。更广泛地说自动化的电力线巡检已越来越多地得到基于无人机的视觉、机器人巡检平台和智能传感流程的支持。先前的研究已强调深度学习作为自动巡检分析骨干的日益重要性同时也强调了在复杂的输电环境中可扩展的数据采集和状态评估在操作上的重要性[10, 11, 12, 13]。尽管取得了这些进展现有方法仍面临若干局限。首先绝缘子类型、故障类别和成像条件的异质性给在有限数据集上训练的模型带来了挑战。其次故障类型的长尾分布会导致模型预测偏向常见类别而忽略罕见但关键的故障。第三超参数和架构选择的手动调整仍然是一个耗时的过程需要大量的领域专业知识。混合专家架构为解决前两个挑战提供了一种有前景的范式[14]。通过基于学习的门控机制将输入路由到专门的专家子网络MoE模型可以针对不同的输入特征如故障类型或绝缘子外观开发不同的处理路径而不会导致计算成本成比例增加。这种条件计算使得模型容量和专业化程度更高同时保持了适合实时应用的推理效率。为解决超参数优化的挑战近期研究探索了使用大语言模型作为智能优化智能体[15]。不同于纯粹基于数值表示运行的传统优化算法基于LLM的智能体可以利用关于神经网络架构的预训练知识通过自然语言推理解释实验结果并根据观察到的模式自适应地优化搜索策略[16]。这种新兴范式有潜力加速优化过程同时融入原本需要大量人类专业知识的领域特定见解。本工作提出了一种优化的YOLO26-MoE这是一种新颖的架构它将MoE层集成到最先进的YOLO26骨干网络中用于无人机图像中的绝缘子故障检测。该模型通过一个基于LLM的智能体进行优化该智能体利用关于绝缘子特性、故障类型和无人机成像条件的领域知识来指导超参数搜索过程。本文的主要贡献如下一种新颖的YOLO26-MoE架构将稀疏MoE层集成到检测骨干网络中能够为不同的绝缘子类型和故障类别建立专门的处理路径同时保持计算效率。一个基于LLM的优化智能体结合自然语言推理与系统性的超参数搜索利用关于计算机视觉架构的预训练知识来加速收敛并提高最终模型性能。在无人机采集的绝缘子数据集上进行的全面实验评估证明所提方法与基线YOLO变体和现有绝缘子检测方法相比实现了更优的检测精度。分析MoE组件贡献和LLM引导优化有效性的消融研究为驱动性能提升的设计选择提供了见解。本文的其余部分组织如下第2节回顾了绝缘子缺陷检测、基于YOLO的检测器、混合专家模型和LLM驱动优化方面的相关工作确立了本工作所解决的研究空白。第3节介绍了YOLO26的技术背景包括其架构设计和训练策略。第4节描述了所提出的YOLO26-MoE方法详细阐述了稀疏混合专家模块的集成以及负责超参数调优、训练和评估的LLM智能体。第5节介绍了实验设置、数据集、硬件配置、评估指标和基准测试结果。最后第6节总结了主要发现并概述了未来的研究方向。2. 相关工作本节回顾了关于绝缘子故障检测、用于电力线巡检的目标检测架构、MoE模型以及LLM在超参数优化中新兴作用的现有文献。2.1. 电力系统中的绝缘子故障检测绝缘子是输配电系统中的关键部件负责在机械上支撑导体同时在电气上将其与接地结构隔离。污染、裂纹、闪络损伤和端盖缺失等故障可能导致停电、设备损坏和安全危害[17]。传统的检测方法依赖经过培训的人员进行人工目视检查这耗时、费力并且对于偏远或困难地形中的高压输电线路尤其危险[7]。配备高分辨率摄像头的无人机的采用通过实现快速、安全且成本效益高的数据采集彻底改变了电力线巡检[6]。早期的自动化方法采用经典的图像处理技术包括边缘检测、形态学操作和模板匹配[18]。然而这些方法难以应对变化的光照条件、复杂背景和多样化的绝缘子类型。深度学习的出现显著提高了检测精度和鲁棒性[19]。更具体地说近年来的研究已经调查了在实际现场条件下用于绝缘子和输电线路缺陷分析的智能识别策略。这些工作解决了诸如背景杂乱、缺陷区域小以及代表性训练样本有限等挑战表明现代基于学习的方法可以在实际巡检场景中显著提高故障判别和定位鲁棒性[20, 21, 22]。2.2. 深度学习在电力线巡检目标检测中的应用卷积神经网络已成为视觉检测任务的主导范式。两阶段检测器实现了高精度但存在计算开销限制了实时部署。单阶段检测器特别是YOLO系列[8]在实际应用中的速度和准确性之间提供了有吸引力的平衡。YOLO架构自推出以来已显著发展。YOLOv3引入了使用特征金字塔网络的多尺度预测[24]。YOLOv4 [25] 整合了“免费午餐”和“特供套餐”技术来改进训练和推理。YOLOv5通过易用的实现和高效的训练流程普及了该架构。包括YOLOv7 [26]、YOLOv8及后续迭代在内的更新版本通过扩展高效层聚合网络和无锚框检测头等架构创新不断突破检测性能的界限。有几项研究已将YOLO变体应用于绝缘子故障检测。Liu等人[27]采用带有注意力机制的YOLOv3检测绝缘子缺陷提高了定位精度。Wang等人[28]提出了一种带有可变形卷积的改进YOLOv4以处理从不同无人机视角捕获的绝缘子的几何变化。Chen等人[9]开发了一种轻量级YOLO变体针对计算资源有限的无人机平台上的边缘部署进行了优化。尽管取得了这些进展现有方法在处理故障类型的长尾分布方面仍面临挑战某些缺陷的发生频率远高于其他缺陷。此外模型复杂度与推理速度之间的权衡仍然是实时无人机巡检系统的一个关键考虑因素。2.3. 混合专家架构MoE模型[29]代表了一种通过基于输入特征有条件地激活参数子集来扩展神经网络的范式。MoE架构不是通过整个网络处理所有输入而是采用门控机制将输入路由到专门的专家子网络从而在不按比例增加计算成本的情况下增加模型容量。Shazeer等人[14]的开创性工作证明了稀疏门控MoE层在将语言模型扩展到前所未有的规模同时保持计算效率方面的有效性。此后这种方法已被应用于各个领域包括计算机视觉[30]和多模态学习[31]。在目标检测的背景下MoE架构具有几个潜在优势。不同的专家可以专门检测不同尺度、长宽比或语义类别的目标[32]。对于绝缘子故障检测考虑到故障类型的多样性以及不同制造商、电压等级和环境条件下绝缘子外观的变化这种专业化尤其相关。2.4. 超参数优化与神经架构搜索深度学习模型的性能对超参数选择高度敏感包括学习率、批量大小、数据增强策略和架构参数[33]。传统的超参数优化方法包括网格搜索、随机搜索[33]和贝叶斯优化[34]。神经架构搜索将超参数优化扩展到架构层面自动发现最佳的网络拓扑结构[35]。高效的NAS方法包括可微分方法[36]和权重共享策略[37]已将架构搜索的计算成本从数千个GPU天降低到更实际的时间范围内。对于基于YOLO的检测器已有几项研究采用了自动化优化技术。Wang等人[38]使用NAS为YOLOv4发现了高效的扩展策略。这些方法通常需要大量的计算资源和领域专业知识来适当配置搜索空间。2.5. 大语言模型作为优化智能体LLM已在推理、代码生成和任务规划方面展现出非凡的能力[39]。近期的研究探索了利用这些能力进行科学发现和优化任务[40]。基于LLM的优化智能体概念代表了一种新兴范式其中语言模型通过自然语言推理和代码生成来指导搜索过程[15]。与基于数值表示运行的传统优化算法不同LLM智能体可以结合领域知识、解释实验结果并根据观察到的模式自适应地修改搜索策略。Chen等人[41]提出了EvoPrompting它使用LLM通过自然语言描述来生成和演化神经网络架构。Liu等人[42]证明LLM可以通过基于观察到的性能迭代提出和完善参数配置有效地支持超参数优化。Jiang等人[43]介绍了LLMOPT一个将基于LLM的推理与传统优化算法相结合以提高样本效率的框架。应用LLM智能体为特定领域优化目标检测模型具有几个优势。首先LLM可以利用其关于计算机视觉架构和训练实践的预训练知识。其次它们可以解释关于模型行为的定性反馈。第三它们可以为优化决策生成人类可读的解释提高自动化系统的透明度和可信度。然而确保基于LLM的优化的可靠性和一致性仍然存在挑战。幻觉在安全关键应用中构成风险[44]。此外查询LLM的计算成本必须与优化带来的效率提升相平衡。2.6. 研究空白与贡献尽管先前的研究已经报道了在电力系统资产的缺陷检测和巡检自动化方面取得了实质性进展但大多数现有方法仍然依赖于传统的骨干网络改进或标准目标检测器的增量适配。相比之下对于能够在电力线巡检场景中针对异质视觉模式进行专门特征处理的条件计算机制尤其是当细微缺陷占据有限的空间区域并表现出强烈的类内变异性时关注相对较少[45, 46]。尽管在绝缘子故障检测和深度学习优化方面取得了显著进展文献中仍然存在一些空白(i) 现有的用于绝缘子检测的YOLO变体并未利用MoE架构的潜力来处理故障类型和绝缘子外观的异质性。(ii) 最先进的YOLO架构在电力线巡检中的应用尚未得到深入研究。(iii) 基于LLM的优化智能体尚未应用于绝缘子故障检测等特定领域的目标检测任务。(iv) MoE组件与现代YOLO架构的集成以及通过LLM智能体进行优化仍有待探索。本工作通过提出YOLO26-MoE来解决这些空白这是一种将MoE层集成到YOLO26骨干网络中的新颖架构并通过一个利用关于绝缘子特性和无人机成像条件的领域知识的LLM智能体进行优化。所提出的方法旨在实现卓越的检测性能同时保持适合实际部署场景的计算效率。3. YOLO26 相对于当代检测器的背景YOLO26 是 Ultralytics 发布的一个专注于边缘优化实时检测的版本。其主要设计选择是移除分布焦点损失模块和无需非极大值抑制的原生端到端推理 [47]。YOLO26 还进一步引入了 ProgLoss 用于损失项的渐进平衡、STAL 用于小目标标签分配以及 MuSGD 作为混合优化器。这些设计选择的目标是简化部署、增强量化鲁棒性并改进小目标性能如 Ultralytics 报告所述。3.1. 正式指标与权衡检测系统通常通过平均精度均值和推理延迟来评估。令 T 表示在目标设备上测量的每张图像延迟毫秒。一种简洁的表达精度-延迟权衡的方式是使用标量分数其中 α 是用户选择的惩罚因子表示延迟相对于精度的惩罚程度T0 是参考延迟通常设为 1 毫秒或基线模型的延迟。对于边缘使用最优的模型将在相对较大的 α 下最大化 Sα而面向服务器的模型则容忍较小的 α。3.2. 架构与训练差异YOLOv8 采用了解耦头、无锚框设计在实践中受益于用于精细边界框定位的分布焦点损失和基于非极大值抑制的标准后处理 [48]。这些元素在服务器级 GPU 上提供了高精度同时在优化运行时保持了有希望的速度。YOLOv9 强调内部梯度流的优化和高效的特征重用考虑了广义高效层聚合网络 [49]而 YOLOv10 则朝着基于最优传输的标签分配和无后处理的完全端到端检测迈进 [50]。YOLOv11 引入了更小的 CSP 内核块以提高效率并引入空间注意力模块将焦点引导至显著区域 [51]。YOLOv12 强调以注意力为中心的模块以捕获全局上下文 [52]。这些模型提高了原始精度特别是在大型、复杂的数据集上但代价是增加了架构复杂性和对量化的更高敏感性 [53]。依赖 Transformer 编码器和解码器的检测器在架构层面强调端到端训练和全局注意力。这些模型通常能产生强大的大目标精度和改善的上下文推理 [54]。然而这些模型通常对量化更敏感并在中央处理器和某些边缘加速器上产生更高的延迟。YOLO26 背离了最近的复杂性趋势移除了分布焦点损失模块并设计了一个不需要非极大值抑制的原生端到端预测器。训练稳定性和小目标恢复分别通过 ProgLoss 和 STAL 得到改善。MuSGD 优化器加速收敛并减少超参数的脆弱性 [47]。综合效果是一个具有改进的导出友好性、一致的量化性能以及 nano 规模变体中显著更低的 CPU 延迟的模型。实证声明和部署指南在 Ultralytics 技术手稿中有所报告。3.3. 实践指导当目标设备是 CPU 或低功耗加速器时优先选择 YOLO26 以实现实时推理和稳定的量化性能。当目标是在大型服务器级 GPU 上获得绝对顶尖的精度时可以考虑注意力增强版本如 YOLOv12或 Transformer 检测器但要记住可能会增加延迟和量化敏感性。当小目标召回率很重要时可以使用类似于 ProgLoss 和 STAL 的训练策略或采用多尺度高分辨率训练。YOLO26 原生实现了这些思想并在报告的基准中显示出改进的小目标性能。YOLO26 体现了一种设计转变优先考虑部署简洁性、量化鲁棒性和确定性推理行为同时保持有竞争力的精度。对于优先考虑边缘部署、实时吞吐量和小目标鲁棒性的研究YOLO26 是推荐的基线。对于面向大规模服务器基准和全局上下文建模研究的研究基于 Transformer 的检测器仍然是强有力的替代方案。4. 方法论在本节中我们描述了本工作所采用的方法。本文使用的目标检测器是 YOLO26 的修改版本此后称为 YOLO26-MoE其中在检测头的小目标检测分支中引入了一个稀疏 MoE 模块。超参数优化、最终训练、评估和定性检查由一个工具增强的 LLM 智能体协调。如图 1 所示所提出的方法包括一个结构化的流程包括使用 Optuna 进行超参数优化、最终模型训练、在保留测试集上评估以及通过推理可视化进行定性检查。LLM 智能体不直接优化模型权重相反它编排执行实现流程不同阶段的确定性工具。在下面的小节中我们首先描述所提出的 YOLO26-MoE 架构然后详细说明 LLM 智能体过程。4.1. YOLO26-MoE4.1.1. 基线 YOLO26 检测器YOLO26 遵循 YOLO 范式其中目标检测被表述为一个单阶段密集预测问题直接将图像像素映射到边界框坐标和类别概率 [55]。给定输入图像 I ∈ R^{H×W×3}网络通过轻量级卷积骨干网络提取层次化特征表示并在多个空间分辨率上预测检测结果。与通过解码器注意力层分离定位和分类的基于 Transformer 的检测器不同YOLO26 保留了完全卷积拓扑并在各阶段之间实现高效的特征传播 [47]。其架构旨在保持计算效率与检测精度之间的有利权衡使其适用于边缘导向的应用。该检测器在多个尺度上运行能够定位图像中不同表观尺寸的目标。本工作中使用的原始 YOLO26 架构由一个卷积骨干网络和一个具有三个预测级别的多尺度检测头组成P3/8、P4/16 和 P5/32。骨干网络逐步对输入进行下采样并提取越来越语义化的特征图而检测头则上采样并融合中间表示以恢复中小尺度目标的空间细节。最终的 Detect 模块接收三个特征图并在三个尺度上生成边界框和类别预测。4.1.2. 提出的基于 MoE 的检测头修改尽管基线 YOLO26 已经提供了一个高效的多尺度检测架构但其特征细化模块是静态的意味着无论场景内容或缺陷形态如何都对所有输入样本应用相同的卷积变换。在本工作中我们通过用稀疏 MoE 模块替换原始的 P3/8 特征细化模块修改了 YOLO26 的小目标检测分支。这产生了所提出的 YOLO26-MoE 架构。图 2 说明了标准 YOLO26 检测器与所提出的 YOLO26-MoE 之间的架构差异。可以看出修改特意局限在高分辨率的 P3 分支其中原始的细化块被稀疏的 MoEBlock 取代。这种设计通过路由专家选择实现条件特征细化同时保留了基线架构的其余骨干网络、颈部和多尺度检测结构。更具体地说在原始的 YOLO26 检测头中P3 分支是在将高层特征与骨干 P3 特征上采样并拼接后形成的随后是一个 C3k2 细化块。在所提出的架构中这个 C3k2 块被一个定制的 MoEBlock 取代而 P4 和 P5 分支保持不变。因此架构修改局限在最高分辨率的预测路径即与小目标表示最直接相关的分支。令 F_{P3} ∈ R^{B×C×H×W} 表示拼接后修改后的 P3 分支的输入特征张量。不是使用单个共享卷积块处理 F_{P3}所提出的 MoE 模块首先将输入投影到一个内部表示然后将小批量中的每个样本路由到专门的专家子集。MoE 块的输出可以写为 Y_{P3} Σ_{j1}^{K} α_j E_{π_j}(F_{P3})其中 E_{π_j}(·) 表示第 π_j 个选中的专家α_j 是其路由权重K 是通过 top-K 路由为每个样本选择的激活专家数量。路由决策由一个轻量级门控子网络产生。给定输入特征张量 F_{P3}首先应用全局平均池化以获得紧凑的通道描述符然后由一个小型多层感知机处理以生成路由 logitsz R(F_{P3}) ∈ R^E其中 E 是专家总数。然后通过 softmax 操作获得路由概率p softmax(z)并根据 z 中最大的 logits 选择 top-K 专家。它们的归一化路由权重计算为 α_j exp(z_{π_j}) / Σ_{m1}^{K} exp(z_{π_m})j 1,...,K。每个专家实现为一个轻量级卷积子网络由一个空间卷积、批量归一化、SiLU 激活和一个投影回目标通道维度的逐点卷积组成。这种设计允许专家池专门处理不同的局部外观模式同时通过稀疏激活保持适中的计算开销。在所提出的实现中对于每个输入样本仅评估选中的专家这保留了条件计算并避免了密集专家聚合的成本。将 MoE 模块专门插入 P3 分支的动机与目标应用的特点有关。在绝缘子缺陷检测中受损区域经常占据有限的空间区域并可能表现出高度的类内变异、细微的纹理变化和模糊的边界。由于 P3 分支在更高的空间分辨率上运行它对于保留精细结构信息特别相关。通过在此阶段用稀疏 MoE 模块替换静态细化块检测器获得了根据每个样本的视觉特征自适应处理特征的能力可能提高对细微和异质缺陷模式的判别能力。4.1.3. 检测头与预测过程特征细化后YOLO26-MoE 检测器保留了 YOLO26 的原始多尺度预测机制。检测在对应于 P3、P4 和 P5 特征图的三个尺度上进行。对于每个级别 l 的特征张量 F_l检测头在每个空间位置预测目标性、边界框回归值和类别分数。由于架构变化仅限于 P3 特征细化块整体检测逻辑和输出结构保持与基线 YOLO26 框架兼容。4.1.4. 辅助专家平衡损失与训练目标MoE 训练中的一个常见问题是路由崩溃即只有一小部分专家被重复选择而其余专家接收到很少或没有训练信号 [56]。为了缓解这个问题所提出的 MoE 块包含一个辅助平衡损失以促进更均匀的专家利用。令 p ∈ R^E 表示跨小批量的平均路由重要性由路由器产生的 softmax 概率计算得出令 l ∈ R^E 表示跨相同批次的实证专家选择频率。辅助 MoE 正则化项定义为 L_aux CV²(p) CV²(l)其中 CV²(·) 表示变异系数的平方。最小化此项鼓励路由重要性和实际专家使用的更平衡分布同时仍然允许专家专业化。所提出的检测器的最终训练目标定义为 L_total L_{YOLO26} λ(t) L_aux其中 L_{YOLO26} 是原始的 YOLO26 检测损失λ(t) 是一个控制 MoE 平衡损失贡献的渐进加权因子。采用线性预热策略λ(t) λ_0 min(1, t/T_w)其中 λ_0 是目标辅助损失权重T_w 是预热迭代次数。这种设计防止辅助路由约束在检测器和路由网络尚不稳定的早期优化动态中占据主导地位。随着训练的进行平衡项逐渐加强鼓励更稳定的专家利用而不破坏早期的表示学习。在实践中这种行为通过扩展原始的 Ultralytics 损失例程来实现。在每次前向传播之前清除 MoE 辅助收集器以确保仅考虑当前迭代中产生的损失。在计算标准 YOLO26 检测损失后对活动 MoE 块产生的可微辅助损失求和并在反向传播前添加到标量训练损失中从而产生一个用于检测性能和专家平衡的联合优化过程。图 3 总结了所提出的检测器的整体训练流程包括骨干-颈部特征提取阶段、MoE 增强的 P3 分支、辅助专家平衡项以及最终的联合优化过程之间的交互。4.1.5. 部署考虑所提出的 YOLO26-MoE 保留了 Ultralytics 框架的部署兼容性 [57]。由于修改局限于 P3 分支并使用标准 PyTorch 模块实现该架构仍然与常见的优化和推理流程兼容。此外由于 MoE 块仅在特征细化期间操作并且不改变检测器输出接口模型评估、可视化和导出仍然与标准 Ultralytics 工具链集成。因此YOLO26-MoE 在高分辨率检测分支中通过条件计算扩展了基线 YOLO26 检测器。此修改的主要目标是提高对细粒度绝缘子缺陷模式的特征适应性同时保持轻量级和面向部署的检测框架。4.2. LLM 智能体采用工具增强的 LLM 智能体来标准化和自动化 YOLO26-MoE 的超参数调优、训练、评估和定性检查用于多类绝缘子状态检测。该智能体不直接更新网络参数。相反它在一组固定的可执行工具上执行受约束的决策这些工具确定性地实现训练和评估程序。这种基于 LLM 的控制与基于工具的计算之间的分离减少了手动超参数选择提高了实验可重复性并通过结构化日志和持久化的优化研究提供了可追溯的来源。4.2.1. 动作模型与工具接口在每个交互步骤 t智能体输出一个由工具调用表示的单一动作 a_t (τ_t, x_t)其中 τ_t 是来自有限注册表 T 的工具名称x_t 是类型化的参数字典。LLM 输出被限制为单个 JSON 对象编码 (τ_t, x_t)被解析并无人工干预地执行。标准模式为{tool_call: {name: tool_name,arguments: { arg1: value1, ... }}}这种严格的行动模式防止自由形式的响应影响执行并确保每个决策都是可问责的。工具输出包括指标和工件路径作为 JSON 观察结果返回并可重新注入到智能体上下文中。4.2.2. 工具注册表工具注册表 T 旨在镜像实验协议并在 LLM 策略与训练/评估后端之间提供一个最小且确定性的接口。每个工具封装一个流程阶段并返回一个结构化的 JSON 负载包含主要性能指标、执行元数据以及工件位置。工具包括yolo_optuna_tune执行基于 Optuna 的超参数优化目标最大化验证集 mAP[0.5:0.95]。yolo_train_final使用 λ* 执行最终训练计划。yolo_eval_test在保留测试集上评估指定的检查点获得泛化性能的无偏估计。yolo_infer_visualize在代表性样本上执行推理并存储标注输出用于定性检查。4.2.3. 提示规范与输出契约智能体行为通过一个系统提示来控制该系统提示形式化了 LLM 策略与工具运行时之间的执行契约。该提示沿着三个主要维度约束智能体任务范围和领域角色、类别分类法0: 无问题, 1: 破损, 2: 闪络损伤以及严格的输出格式每轮必须恰好产生一个 JSON 工具调用。此外提示还编码了协议对齐的决策策略优先进行超参数调优以最大化验证 mAP[0.5:0.95]然后用选定的配置训练最终模型在保留测试集上评估最后生成定性可视化。4.2.4. 记忆机制与语义检索智能体存储包含用户指令、相应的 LLM 工具调用决策以及由此产生的工具观察结果的交互历史。当交互历史变得很长时直接将所有先前的消息附加到提示中可能效率低下并可能超过可用的上下文窗口。为了解决这个限制一个可选的语义检索机制为每个新指令构建一个紧凑的任务相关上下文。检索阶段使用句子嵌入模型嵌入当前指令和存储的消息并按余弦相似度对先前消息进行排序。然后选择 top-k 最相关的消息按时间顺序排列并与系统契约一起注入提示中。这产生了一个更短的上下文保留了高显著性信息同时控制了提示长度。4.2.5. LLM 超参数调优与评估协议令 λ ∈ Λ 表示在超参数调优期间探索的训练和增强配置。目标是选择最大化验证性能的配置λ* argmax_{λ∈Λ} mAP_val_{50:95}(λ)其中 mAP_val_{50:95} 在验证数据集上计算。搜索通过 Optuna 实现而 LLM 智能体负责启动调优阶段、参数化工具调用并将最佳配置传播到后续阶段。每个 Optuna 试验从预定义的搜索空间中采样 λ覆盖输入分辨率、批量大小、优化器类型、学习率参数、动量、权重衰减、预热轮次和增强幅度。对于每个采样的配置YOLO26-MoE 被训练固定数量的轮次然后在验证集上评估。为了提高计算效率中间验证性能通过回调机制在每个轮次后报告使得能够提前终止表现不佳的试验。超参数调优后最终模型使用 λ* 训练最多 100 个轮次采用余弦学习率计划和基于耐心的早停以稳定收敛。在此阶段获得的最佳模型然后在保留测试集上使用固定的置信度和 IoU 阈值进行评估。这些结果构成了结果部分报告的定量性能指标。除了汇总指标外还通过在代表性样本上运行推理并存储标注输出进行定性检查从而能够对定位质量和类别混淆进行视觉评估。算法 2 总结了整个过程。5. 结果与讨论在本节中展示并讨论了应用所提方法的结果。首先我们介绍了用于计算实验的实验设置之后我们展示了应用所提方法论的结果以及与其他模型的比较分析。5.1. 实验设置实验设置定义了本节中使用的硬件、数据集和评估指标使得能够将我们的结果与其他模型的结果进行比较并促进未来的比较。5.1.1. 硬件与软件规格所有实验均使用标准化的软件和硬件环境进行以确保可重复性和结果的公平比较。目标检测框架基于 Ultralytics 8.4.6 版本使用 Python 3.9.25 实现。模型训练和推理使用 PyTorch 2.8.0 版本支持 CUDA。所有计算均在单张 NVIDIA Quadro RTX 5000 GPU 上加速配备 16 GB 专用内存为所评估模型的高效训练和评估提供了充足的计算能力。5.1.2. 数据集描述本文分析中使用的数据集包括绝缘子串的图像作为主要类别其中包含三个子类代表绝缘子外壳的状态闪络损伤的绝缘子外壳、破损的绝缘子外壳和完好的绝缘子外壳。数据包括在高压输电线路巡检期间采集的原始高分辨率图像。为了可重复性和未来的比较研究原始数据集以及详细的文档已公开在 Lewis 和 Kulkarni 创建的存储库中 [58]。所考虑的数据集由在良好天气条件下进行电网巡检时使用数码单反相机拍摄的高分辨率图片组成。预处理包括将照片缩放到 640×640 像素并标注从 JSON 文件转换为 YOLO 兼容的可读文件。所考虑绝缘子的示例如图 4 a) 和 b) 所示。5.1.3. 考虑的指标报告了精确率、召回率、F1 分数和 mAP 的结果。特别地评估包括 mAP[0.5] 和在 IoU 阈值范围 0.5 到 0.95 上计算的 mAPmAP[0.5:0.95]。所有这些性能指标都源自分类任务中的真正例、假正例和假负例。5.1.4. 比较的模型为了评估所提出的 YOLO26-MoE 架构的有效性与几个当代 YOLO 系列进行了比较即 YOLOv10 [50]、YOLO11 [51]、YOLO12 [52] 和 YOLO26 [47]考虑了每个架构的多个规模变体包括 nano、small、medium、large 和 extra-large。这些模型被选中是因为它们代表了 YOLO 框架的连续设计演进从面向效率的轻量级检测器到具有增强表示能力的高容量变体。这种多样性为评估所提方法的检测性能和计算成本提供了全面的基础。对于基准测试每个 YOLO 系列通过其规模变体进行评估以分析精度和计算效率之间的权衡。考虑的指标包括 mAP0.5、mAP0.5:0.95、精确率、召回率、F1 分数、训练时间和验证时间。这种实验设计不仅能够跨不同 YOLO 代进行对比分析还能在同一系列内的不同模型容量之间进行对比分析。除了基线检测器外所提出的 YOLO26-MoE 模型也被包含作为最终的比较配置。该模型通过在高分辨率检测分支中引入稀疏 MoE 模块并采用 LLM 引导的超参数优化策略扩展了原始的 YOLO26 架构。因此基准测试旨在验证所提出的架构修改和优化流程是否能在基于无人机的绝缘子故障检测背景下相对于标准 YOLO 基线提供可测量的增益。5.2. 超参数调优研究为了为所提出的 YOLO26-MoE 检测器模型确定一个强大的训练配置通过第 4.2.5 节中介绍的工具增强 LLM 流程进行了超参数优化研究。LLM 智能体调用一个确定性的基于 Optuna 的工具该工具在预定义的超参数空间上自动执行搜索。优化目标是验证集 mAP[0.5:0.95]用作对候选配置进行排序的标量标准。超参数调优过程执行了 50 次 Optuna 试验。在每次试验中所提出的模型配置被实例化并在训练集上训练 20 个轮次然后在验证集上进行验证。在训练期间验证指标 mAP_{50-95} 通过回调机制在每个轮次结束时报告给 Optuna使得能够在适当时提前剪除表现不佳的试验。训练后计算最终的验证指标并将得到的 mAP[0.5:0.95] 作为试验目标值返回。搜索空间联合涵盖了优化、正则化和增强参数。更具体地说探索的超参数包括输入图像大小、批量大小、优化器类型、初始学习率、最终学习率因子、动量、权重衰减、预热持续时间以及几个增强参数。从研究中获得的最佳配置总结在表 3 中。如表 3 所示高输入分辨率的选择表明所提出的检测器受益于保留精细的空间细节这与破损和闪络损伤绝缘子区域的小型和局部性质一致。AdamW 的选择进一步表明解耦的正则化有助于更有利的优化轨迹。如图 5 所示优化历史显示目标值在 50 次试验中逐步改善。尽管在搜索过程中采样了几个低性能配置但最佳迄今为止曲线稳步上升表明 Optuna 研究细化了探索的配置并收敛到更强的解。图 6 显示了每个超参数相对于优化目标的相对重要性。结果表明mosaic 是最具影响力的参数其次是 hsv_h、lr0 和 batch。这表明对于所考虑的基于无人机的绝缘子故障检测任务最终验证性能受到数据增强和优化动态的强烈影响。特别是mosaic 增强的突出表明对目标尺度、位置和周围上下文变化的鲁棒性在此问题中起着重要作用。相反warmup_epochs、hsv_s 和 imgsz 等参数在探索的域内显示出相对较小的个体贡献。因此所得到的参数集被用于最终训练阶段。图 7 显示了最终选定配置在整个训练过程中主要检测指标的演变。在初始轮次中观察到快速增加随后是更平滑的收敛状态mAP0.50 稳定接近 0.99mAP0.50:0.95 接近 0.9515。这种行为表明选定的超参数配置不仅在 Optuna 搜索期间改善了最终验证目标而且在完整的训练计划中产生了稳定和持续的优化。5.3. 与当代 YOLO 模型的基准测试为了在更广泛的比较环境中评估所提出的检测器的有效性针对多个最近的 YOLO 系列即 YOLOv10、YOLO11、YOLO12 和 YOLO26进行了基准测试实验考虑了每个架构的几个规模变体。比较包括检测有效性指标mAP0.5、mAP0.5:0.95、精确率、召回率、F1 分数以及计算指标训练时间和验证时间。所提出的模型在所有评估配置中取得了最佳的整体检测性能mAP0.5 达到 0.9900mAP0.5:0.95 达到 0.9515精确率达到 0.9783召回率达到 0.9726F1 分数达到 0.9745。这些结果表明所提出的架构修改以及采用的超参数调优策略在改善所考虑的绝缘子故障检测任务中的定位质量和分类一致性方面是有效的。与 YOLOv10 系列相比所提出的模型在所有检测指标上都显示出明显的优势。尽管 YOLOv10x 是该系列中最强的配置但始终低于所提出的方法。这表明所提方法取得的增益不仅限于轻量级基线即使与最新的端到端 YOLO 代的更强变体相比仍然是明显的。在 YOLO11 系列中也观察到了类似的趋势。在这些模型中YOLO11s 提供了 0.9704 的强 F1 分数而 YOLO11l 取得了特别有竞争力的召回率 0.9659。尽管如此所提出的模型仍然在所有报告的检测指标上优于所有 YOLO11 变体表明在特征表示、缺陷判别和边界框细化之间取得了更有利的平衡。YOLO12 系列提供了总体上最接近的竞争者。特别是YOLO12s 达到了 0.9348 的 mAP0.5:0.95 和 0.9706 的 F1 分数使其成为比较中最强的基线之一。即便如此所提出的检测器仍然保持了持续的优势尤其是在更严格的 mAP0.5:0.95 指标上它比 YOLO12s 绝对提高了 0.0167。这个结果特别相关因为 mAP0.5:0.95 对定位精度更敏感因此提供了对检测器质量的更严格评估。最有意义的比较是与 YOLO26 系列因为所提出的方法是直接源自该架构的。在标准 YOLO26 变体中YOLO26l 达到了最强的 mAP0.5:0.95 值等于 0.9416而 YOLO26x 和 YOLO26l 在该系列中提供了最高的召回率和 F1 值。然而所提出的 YOLO26-MoE 仍然优于最佳的基线 YOLO26 配置将 mAP0.5 从 0.9859 提高到 0.9900mAP0.5:0.95 从 0.9416 提高到 0.9515F1 分数从 0.9668 提高到 0.9745。这些增益证实了稀疏 MoE 模块的插入和采用的优化策略相对于原始 YOLO26 设计产生了可测量的改进。从计算角度来看所提出的模型训练需要 9.29 小时验证需要 23.17 秒这高于几个轻量级和中型基线。因此观察到的检测质量增益伴随着计算成本的增加。尽管如此所得成本仍然在离线训练工作流和验证导向研究的实际范围内同时提供了最佳的整体性能。这使得所提出的方法特别适用于以精度为导向的检测场景其中最大化故障检测可靠性比仅仅最小化训练时间更重要。为了进一步描述所提方法的计算权衡表 5 报告了 YOLO26 系列内的模型复杂度包括参数数量和 GFLOPs。所提出的 YOLO26-MoE 模型包含 1565.9 万参数需要 58.8 GFLOPs介于较小的 YOLO26s 配置和较大的 YOLO26m/l/x 变体之间。这个结果特别相关因为它表明所提出的检测器并不是通过简单地将基线架构扩展到最高复杂度来实现其性能增益的。相反它以仍然远低于 YOLO26m、YOLO26l 和特别是 YOLO26x 的复杂度水平实现了优越的检测性能。这一观察有助于将先前报告的更长的训练和验证时间置于背景中。尽管所提出的模型比 YOLO26n 和 YOLO26s 等轻量级变体计算要求更高但它仍然比大型基线检测器更紧凑同时实现了最强的整体检测性能。因此所提出的架构提供了有利的精度-复杂度权衡特别是在优先考虑检测可靠性但不希望模型过大的场景中。总体而言基准测试结果表明所提出的 YOLO26-MoE 在所评估的模型中建立了最强的精度-性能点特别是在需要严格定位质量和平衡的精确率-召回率行为时。5.4. 统计分析5.4.1. 对随机初始化的鲁棒性为了评估最终优化的 YOLO26-MoE 配置的鲁棒性和可重复性在 50 次独立运行上进行了额外的统计分析。该分析的目的是量化主要评估指标即 mAP0.5、mAP0.5:0.95、精确率、召回率和 F1 分数的集中趋势、离散度和分布特征。表 6 总结了 50 次运行获得的描述性统计数据。所有考虑指标的平均值仍然非常高mAP0.5 达到 0.9900mAP0.5:0.95 达到 0.9515精确率达到 0.9783召回率达到 0.9727F1 分数达到 0.9755。这些值与相应的中位数紧密对齐表明稳定的集中趋势典型行为与平均行为之间没有显著差异。此外所有指标的标准差和四分位距仍然很低表明最终的检测器配置在重复执行中表现出有限的可变性。结果的分布形状也提供了有用的见解。观察到的 mAP0.5、mAP0.5:0.95、精确率和召回率的负偏度表明大多数运行集中在性能范围的上端只有少数性能较低的结果。这种效应对于 mAP0.5 尤其明显它也表现出更高的峰度表明分布高度集中在非常高的性能水平附近。总体而言这些统计指标表明所提出的检测器不仅准确而且稳定且可重复。这些观察结果得到了图 8 所示的小提琴图的视觉支持。所有五个指标都呈现以高值为中心的紧凑分布。特别是mAP0.5 分布紧密集中在约 0.990-0.991 附近而 mAP0.5:0.95 集中在约 0.952-0.953 附近。精确率、召回率和 F1 分数也表现出狭窄且良好集中的分布没有明显的多模态或极端分散的证据。这种视觉行为与描述性统计数据一致并证实了最终超参数调优模型在重复运行中的鲁棒性。5.4.2. 与 YOLO26 系列的配对统计比较尽管基准测试结果确立了所提出模型的优越整体性能但在 YOLO26 系列内部进行了额外的配对推断分析以评估所提出的 YOLO26-MoE 模型的观察增益相对于标准 YOLO26 基线变体是否在统计上一致。这种分析特别相关因为它将所提出的检测器与其最接近的架构亲属进行比较从而将 MoE 修改和采用的训练策略的贡献与更广泛的族间差异隔离开来。比较在测试集上使用匹配的随机种子进行。所提出的模型与标准 YOLO26 基线变体进行了比较。由于实验按种子配对且未施加正态性假设Wilcoxon 符号秩检验被采纳为主要推断程序。然后对每个指标内的五个成对比较应用 Holm 校正。此外为每个比较计算了中位数配对差以量化观察到的增益的方向和实际幅度。正的中位数差表示所提出的 YOLO26-MoE 模型的优越性能。表 7-10 分别总结了精确率、召回率、mAP0.5 和 mAP0.5:0.95 的推断比较。总体而言所提出的检测器在所有评估指标上相对于大多数 YOLO26 基线变体实现了统计上显著的改进。唯一的非显著比较是相对于 YOLO26l 在精确率、召回率和 mAP0.5 上观察到的尽管在这些情况下中位数配对差仍然是正的。对于更严格的 mAP0.5:0.95 指标所提出的模型显著优于所有 YOLO26 基线变体包括 YOLO26l。结果表明所提出的检测器持续改进了轻量级和中型 YOLO26 变体对于 YOLO26n、YOLO26s 和 YOLO26m在所有评估指标上均取得了统计上显著的增益。最强的绝对改进通常是对 YOLO26x 和 YOLO26s 观察到的特别是在召回率和 mAP0.5:0.95 方面中位数配对差分别达到 0.049037 和 0.076509相对于 YOLO26x以及 0.031801 和 0.042125相对于 YOLO26s。一个特别相关的观察是关于与 YOLO26l 的比较后者是基准测试表中最强的基线。在这种情况下所提出的模型在精确率、召回率或 mAP0.5 上没有显示出统计上显著的增益尽管在所有三种情况下中位数配对差仍然是正的。然而对于 mAP0.5:0.95所提出的模型仍然实现了相对于 YOLO26l 的统计显著改进Holm 调整后的 p 值为 0.048828中位数正差为 0.001878。这尤其重要因为 mAP0.5:0.95 是本研究中考虑的最严格的定位指标表明即使在考虑更严格的 IoU 阈值时所提出的模型也能提高检测质量。图 9 所示的箱线图直观地强化了这些推断结果比较了所提出的模型和 YOLO26l 基线在匹配测试运行中 mAP0.5:0.95 的分布。所提出的模型表现出分布集中趋势的上移以及更高的中位数这与正的中位数配对差和针对该指标获得的统计显著结果一致。由于 YOLO26l 构成了 YOLO26 系列中最强的基线这种视觉比较提供了额外的证据表明所提出的 YOLO26-MoE 配置即使面对最有竞争力的族内参考也能提高检测质量。这种推断分析补充了先前报告的基准测试和描述性统计结果。基准测试研究确定了所提出的检测器在当代 YOLO 模型中的相对位置描述性分析证明了最终配置在重复运行中是稳定的而本 Wilcoxon-Holm 比较验证了在 YOLO26 系列内观察到的增益在大多数情况下是统计上有意义的。因此该分析加强了所提出的 MoE 修改相对于标准 YOLO26 基线配置产生系统性改进的主张。5.5. 局限性尽管所提出的 YOLO26-MoE 模型表现出优越的性能但应承认一些局限性计算复杂度稀疏 MoE 处理、LLM 超参数调优和扩展的优化流程的结合增加了所提出方法相对于轻量级 YOLO26 变体的计算成本。尽管最终模型的复杂度仍然低于较大的基线配置但它仍需要比 YOLO26n 和 YOLO26s 更高的计算资源这可能阻碍在高度资源受限的边缘环境中的部署。可解释性权衡虽然所提出的 MoE 设计提高了特征适应性但与标准 YOLO26 骨干网络相比专家的路由行为增加了架构复杂性可能会降低可解释性。对搜索空间设计的依赖所提出的优化策略的有效性取决于预定义的超参数搜索空间、选择的 Optuna 试验次数以及采用的训练计划。尽管 LLM 智能体提供了一个结构化的层但最终优化的配置仍然受到超参数调优期间可用的候选参数范围的约束。6. 结论本文提出了 YOLO26-MoE一种用于基于无人机的绝缘子故障检测的新型检测器它将一个稀疏 MoE 模块集成到 YOLO26 架构的高分辨率分支中并将其与 LLM 超参数优化流程相结合。所提出的方法旨在提高对细微和异质缺陷模式的特征处理适应性同时保持面向部署的单阶段检测框架。实验结果表明所提出的模型在所评估的检测器中取得了最强的整体性能。在全局基准测试分析中YOLO26-MoE 优于所有考虑的 YOLOv10、YOLO11、YOLO12 和 YOLO26 变体达到了 mAP0.5、mAP0.5:0.95、精确率、召回率和 F1 分数的最高值。此外重复运行统计分析表明最终的超参数调优配置是稳定且可重复的在 50 次独立运行中具有高的集中趋势和低的离散度。YOLO26 系列内的配对 Wilcoxon-Holm 分析进一步表明所提出的检测器相对于大多数基线变体产生了统计上显著的改进尤其是在更严格的 mAP0.5:0.95 指标上取得了特别强的增益。从计算角度来看所提出的检测器相对于轻量级 YOLO26 基线增加了复杂度但在参数数量和 GFLOPs 方面仍然低于较大的 YOLO26m、YOLO26l 和 YOLO26x 配置。这表明观察到的增益不仅仅是基线架构扩展到更大模型的结果而是源于通过基于专家的条件特征细化更有效地利用了模型容量。因此所提出的方法为优先考虑检测可靠性的检测场景提供了有利的精度-复杂度权衡。

查看全文

http://www.rkmt.cn/news/1377757.html