一、引言
1.1 研究背景
目标检测是计算机视觉领域的核心任务之一,在自动驾驶、智能监控、工业检测等场景中具有广泛的应用价值。YOLO(You Only Look Once)系列算法凭借其优异的速度-精度平衡,成为工业界最受欢迎的目标检测框架之一。YOLOv8作为该系列的最新版本,在CSPDarknet骨干网络的基础上引入了诸多改进,但仍存在一个固有问题:传统的下采样-上采样架构难以同时保持高分辨率语义信息和丰富的空间细节。
在目标检测任务中,高分辨率特征对于小目标检测和精确定位至关重要。然而,传统的卷积神经网络通常采用逐步下采样的方式来扩大感受野,这导致高分辨率特征在网络早期就被压缩,后续即使通过上采样或特征金字塔网络(FPN)进行恢复,也难以完全还原丢失的空间细节。
1.2 HRNet的核心思想
HRNet(High-Resolution Network)最早由微软亚洲研究院在2019年提出,其核心创新在于在整个网络前向传播过程中始终保持高分辨率表示。与传统网络先降采样后升采样的"沙漏形"结构不同,HRNet通过并行连接多个分辨率分支,并在分支之间进行多尺度信息融合,实现了高分辨率特征的持续保持。
HRNet最初应用于人体姿态估计任务,取得了显著的性能提升。随后的研究表明,HRNet的高分辨率特性同样适用于目标检测、语义分割、图像分类等多种视觉任务。将HRNet引入YOLOv8作为骨干网络,有望显著提升模型对小目标的检测能力和定位精度。