当前位置：首页 > news >正文

别再死记硬背了！用PyTorch实战PCB、BoT、MGN三大ReID模型，从代码里理解局部特征怎么玩

news 2026/5/28 14:56:36

用PyTorch实战三大ReID模型：从代码透视局部特征设计精髓

行人重识别（ReID）技术的核心挑战在于如何从不同视角、光照和遮挡条件下提取具有判别力的特征表示。本文将带您深入PCB、BoT和MGN三大经典模型的PyTorch实现，通过代码级解析揭示局部特征设计的精妙之处。我们假设您已配置好PyTorch环境并准备好Market-1501数据集，接下来将从模型架构到可视化分析，完整呈现工业级实现方案。

1. 环境准备与数据加载

在开始模型构建前，需要确保环境配置正确。推荐使用Python 3.8+和PyTorch 1.10+版本，以下是关键依赖：

import torch import torchvision import numpy as np from torch.utils.data import DataLoader from torchvision.transforms import Compose, Resize, ToTensor, Normalize

Market-1501数据集需要特殊处理才能适配PyTorch的DataLoader。我们实现一个自定义Dataset类：

class Market1501Dataset(torch.utils.data.Dataset): def __init__(self, root_dir, transform=None): self.transform = transform # 实现图像路径加载和ID映射逻辑 self.image_paths = [...] # 填充实际路径 self.pids = [...] # 行人ID标签 def __len__(self): return len(self.image_paths) def __getitem__(self, idx): img = Image.open(self.image_paths[idx]) if self.transform: img = self.transform(img) return img, self.pids[idx]

数据增强策略对ReID性能影响显著，推荐使用以下组合：

train_transform = Compose([ Resize((256, 128)), RandomHorizontalFlip(), ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), ToTensor(), Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ])

2. PCB模型：基于分区的特征学习

PCB（Part-based Convolutional Baseline）通过垂直分区捕捉行人局部特征，其创新点在于Refined Part Pooling（RPP）模块。我们先构建基础骨架网络：

class PCBBackbone(nn.Module): def __init__(self, num_classes=751): super().__init__() base = torchvision.models.resnet50(pretrained=True) # 移除最后的全连接层 self.backbone = nn.Sequential(*list(base.children())[:-2]) self.avgpool = nn.AdaptiveAvgPool2d((6, 1)) # 垂直6分区

RPP模块的核心是学习每个空间位置属于不同分区的概率分布：

class RPP(nn.Module): def __init__(self, parts=6, in_channels=2048): super().__init__() self.parts = parts self.conv = nn.Conv2d(in_channels, parts, kernel_size=1) def forward(self, x): # x形状: [B, C, H, W] part_weights = F.softmax(self.conv(x), dim=1) # 分区概率 refined_features = [] for i in range(self.parts): # 加权求和得到各分区特征 part_feat = (part_weights[:, i:i+1] * x).sum(dim=(2,3)) refined_features.append(part_feat) return torch.stack(refined_features, dim=1) # [B, parts, C]

训练时需要特别注意的几点：

分阶段训练策略：先训练基础PCB模型，再冻结主干网络仅训练RPP模块
损失函数设计：每个分区使用独立的分类器
特征融合方式：测试时将6个分区特征拼接为最终描述符

可视化RPP的注意力图能直观理解其工作原理：

def visualize_rpp_attention(model, img_tensor): with torch.no_grad(): features = model.backbone(img_tensor.unsqueeze(0)) part_weights = model.rpp.conv(features) # 生成各分区的热力图 heatmaps = F.softmax(part_weights, dim=1)[0]

3. BoT模型：强大的基线方案

BoT（Bag of Tricks）虽结构简单但性能优异，其核心创新在于训练策略而非架构。我们实现其关键组件：

class BoT(nn.Module): def __init__(self, num_classes=751): super().__init__() base = torchvision.models.resnet50(pretrained=True) self.backbone = nn.Sequential(*list(base.children())[:-2]) self.bn_neck = nn.BatchNorm1d(2048) self.classifier = nn.Linear(2048, num_classes) def forward(self, x): features = self.backbone(x) global_feat = F.avg_pool2d(features, features.shape[2:]).flatten(1) bn_feat = self.bn_neck(global_feat) if self.training: cls_score = self.classifier(bn_feat) return global_feat, bn_feat, cls_score return bn_feat

BoT的训练技巧值得重点关注：

BNNeck设计：解决triplet loss与分类loss优化方向冲突
Label Smoothing：缓解分类任务的过拟合风险
Warmup学习率：初始阶段缓慢提升学习率

损失函数组合实现如下：

def bot_loss(global_feat, bn_feat, cls_score, targets, margin=0.3): # Triplet Loss triplet = TripletMarginLoss(margin=margin) trip_loss = triplet(global_feat, targets) # Label Smooth Cross Entropy ce = CrossEntropyLoss(label_smoothing=0.1) cls_loss = ce(cls_score, targets) return trip_loss + cls_loss

实际部署时，BNNeck后的特征（bn_feat）配合余弦距离通常能获得最佳效果。

4. MGN：多粒度特征融合

MGN（Multiple Granularity Network）通过并行分支捕获不同粒度的特征。其架构实现较为复杂，我们先定义分支构建器：

class MGNBranch(nn.Module): def __init__(self, num_parts=1, num_classes=751): super().__init__() self.num_parts = num_parts self.conv = nn.Conv2d(2048, 256, kernel_size=1) if num_parts > 1: self.classifiers = nn.ModuleList( [nn.Linear(256, num_classes) for _ in range(num_parts)] ) def forward(self, x): feat = self.conv(x) if self.num_parts == 1: # 全局分支处理 global_feat = F.avg_pool2d(feat, feat.shape[2:]).flatten(1) return global_feat else: # 局部分支处理 part_feats = [] h = feat.size(2) // self.num_parts for i in range(self.num_parts): part = feat[:, :, i*h:(i+1)*h, :] part_feat = F.avg_pool2d(part, part.shape[2:]).flatten(1) part_feats.append(part_feat) return torch.stack(part_feats, dim=1)

完整MGN模型整合三个分支：

class MGN(nn.Module): def __init__(self, num_classes=751): super().__init__() base = torchvision.models.resnet50(pretrained=True) self.backbone = nn.Sequential(*list(base.children())[:-2]) # 三个分支：全局、2局部、3局部 self.branch1 = MGNBranch(1, num_classes) # 全局 self.branch2 = MGNBranch(2, num_classes) # 2局部 self.branch3 = MGNBranch(3, num_classes) # 3局部 def forward(self, x): shared_feat = self.backbone(x) feat1 = self.branch1(shared_feat) # [B, 256] feat2 = self.branch2(shared_feat) # [B, 2, 256] feat3 = self.branch3(shared_feat) # [B, 3, 256] if self.training: # 训练时返回各分支输出 return feat1, feat2, feat3 # 测试时拼接所有特征 return torch.cat([ feat1, feat2.flatten(1), feat3.flatten(1) ], dim=1)

MGN的训练需要特别注意：

差异化损失应用：全局分支使用triplet loss，局部分支使用softmax loss
特征归一化：不同分支的特征尺度可能不一致，需分别归一化
推理策略：测试时拼接所有分支特征，维度通常达到256*(1+2+3)=1536维

5. 模型对比与实战技巧

通过实际训练，我们总结出三大模型的关键差异：

特性	PCB	BoT	MGN
特征类型	局部	全局	多粒度
核心创新	RPP模块	训练策略	分支架构
参数量	约25M	约25M	约30M
推理速度	中等	最快	较慢
Market1501 rank1	~93%	~94%	~95%+

实际部署时的几个实用技巧：

数据增强优化：

# 更强大的增强组合 AugMix = torchvision.transforms.AugMix() RandomErasing = torchvision.transforms.RandomErasing()

难样本挖掘：

# 在triplet loss中实现 from pytorch_metric_learning import miners miner = miners.MultiSimilarityMiner()

混合精度训练：

scaler = torch.cuda.amp.GradScaler() with torch.cuda.amp.autocast(): outputs = model(inputs) loss = criterion(outputs, targets) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()