基于Transformer的碰撞时间预测：CollideNet架构解析与工程实践-尧图网站建设

📅 发布时间：2026/6/22 2:36:38

1. 项目概述：为什么我们需要更精准的碰撞时间预测？

在自动驾驶、机器人导航、无人机避障这些前沿领域，有一个核心指标直接关系到系统的安全性与可靠性，那就是“碰撞时间”。简单来说，它预测的是按照当前运动轨迹，你的车或机器人距离与前方障碍物发生碰撞还有多少秒。这个数字听起来简单，但算准了，系统就能从容不迫地规划路径、减速或变道；算不准，轻则急刹吓人一跳，重则就是一场事故。

传统的碰撞时间预测方法，大多依赖于精确的传感器测距（比如激光雷达、毫米波雷达）和相对速度计算。这就像你用尺子量距离，再用秒表算速度，然后做个除法。这种方法在理想环境下没问题，但现实世界充满了“不理想”：传感器有噪声、目标物体可能被部分遮挡、光照条件剧烈变化、或者目标本身形状不规则。更棘手的是，当目标物体（比如一个突然横穿马路的行人）的运动状态发生突变时，基于简单运动学模型的预测往往会严重滞后。

这就引出了我们今天要拆解的CollideNet。从标题“基于层次化多尺度Transformer的碰撞时间预测新方法”就能看出，它试图用当下最火的Transformer架构，结合“层次化”和“多尺度”这两个关键词，来解决传统方法的痛点。我花了些时间研究相关的论文和开源实现，发现它的核心思路非常巧妙：不再仅仅依赖精确的几何测量，而是试图从视觉序列中直接“理解”场景的深度和运动关系，从而更鲁棒、更早地预测碰撞风险。这有点像老司机开车，不完全是靠目测距离，更是靠对前方车辆姿态、相对大小变化的一种综合“感觉”。

接下来，我将带你深入CollideNet的内部，拆解它的设计思路、技术实现细节，并分享在复现和调优过程中可能遇到的“坑”以及我的实战心得。无论你是从事相关研发的工程师，还是对计算机视觉和自动驾驶感兴趣的学习者，这篇文章都将提供一份可直接参考的“地图”。

2. 核心思路拆解：层次化与多尺度如何赋能Transformer？

要理解CollideNet，我们必须先吃透它的两个核心设计理念：“层次化”和“多尺度”，以及它们是如何与Transformer结合在一起的。

2.1 从“单帧推理”到“时空序列理解”的范式转变

传统方法可以看作“单帧推理”：给定当前帧的深度图或目标检测框，计算TTC。而CollideNet借鉴了视频理解的思想，将问题转化为“时空序列预测”。它通常以一段连续的视频帧（例如，过去N帧图像）作为输入。Transformer天生就是处理序列的专家，它能通过自注意力机制，挖掘序列中任意两帧之间的长程依赖关系。这对于捕捉目标物体加速度的变化、相机自身的运动（ego-motion）等时序信息至关重要。

2.2 “多尺度”设计：兼顾细节与全局

在计算机视觉中，“尺度”是一个永恒的话题。远处的物体在图像中像素少，细节模糊；近处的物体像素多，细节丰富。对于碰撞预测而言：

大尺度（浅层特征）：包含丰富的纹理、边缘细节，有助于精确定位物体轮廓，对近处、高速物体的运动感知敏感。
小尺度（深层特征）：经过多次下采样，感受野大，包含更强的语义信息和全局上下文，有助于理解场景布局、识别远处物体或处于复杂背景中的目标。

如果只使用单一尺度的特征，模型很容易“只见树木，不见森林”或反之。CollideNet的“多尺度”体现在，它通常从骨干网络（如ResNet、ConvNeXt）中提取不同层级的特征图（例如，1/4, 1/8, 1/16原图尺寸的特征）。这些特征分别捕捉了从细节到语义的不同层次信息。

2.3 “层次化”设计：由粗到精的渐进式推理

这是CollideNet最具创新性的部分之一。“层次化”并不是简单地把多尺度特征拼接起来，而是设计了一个结构化的处理流程。一个典型的层次化流程可能如下：

尺度内特征提炼：首先，在每个尺度内部，使用一个轻量的Transformer编码器或卷积模块进行特征增强，让该尺度下的特征自己先“想清楚”当前尺度下最重要的信息是什么。
跨尺度特征融合：然后，设计一个自上而下或自下而上的特征融合路径。例如，将深层、小尺度的语义特征上采样，与浅层、大尺度的细节特征进行融合。这个过程可能反复进行多次，确保全局语义信息能指导细节感知，同时细节信息也能丰富语义理解。
时空注意力聚合：在获得了融合后的多尺度特征序列后，再送入一个核心的时空Transformer模块。这个模块同时关注“时间维”（不同帧之间）和“空间维”（同一帧内不同位置之间）的关系。例如，它可能会发现“第t-2帧中那个模糊的斑点”与“第t帧中清晰的汽车车头”是同一个物体，并且它在快速变大（意味着正在接近）。

这种层次化处理，模拟了人类从模糊到清晰、从局部到整体的认知过程。先通过多尺度捕捉不同“粒度”的信息，再通过层次化结构将这些信息有条理地整合起来，最终由时空Transformer做出综合决策。

注意：这里的“层次化”和“多尺度”在具体实现中可能是紧密耦合的。有些设计会将不同尺度特征直接输入Transformer，利用其注意力机制自动学习跨尺度交互，这也是一种有效的思路。但CollideNet通常强调更显式、结构化的融合策略。

2.4 Transformer的核心作用：关系建模与动态权重

那么，Transformer在这个框架里具体做什么？它主要扮演了两个角色：

动态关系筛选器：传统的卷积操作具有固定的感受野和权重。而Transformer的自注意力机制可以动态地为序列中不同位置、不同时间的特征分配权重。对于碰撞预测，模型可以学会更关注那些运动趋势明显、或位于潜在碰撞路径上的区域，忽略静止的背景或无关物体。
全局上下文集成器：一帧图像中，轮胎的移动和车灯的相对位置变化，都可能暗示车辆的运动状态。Transformer能够集成整帧甚至多帧的全局信息，来理解这些局部变化所代表的整体含义。

通过这种设计，CollideNet的目标是建立一个对传感器噪声不敏感、对目标遮挡有一定鲁棒性、并且能更早响应非匀速运动威胁的预测系统。

3. 网络架构与核心模块深度解析

理解了核心思想，我们来看CollideNet具体是如何搭建的。这里我结合常见的实现模式，勾勒出一个典型的网络架构，并详解关键模块。

3.1 整体架构流水线

一个完整的CollideNet前向传播流程可以分解为以下几个阶段：

输入预处理：输入一段长度为T的连续RGB图像序列[I_1, I_2, ..., I_T]。通常会对图像进行标准化和缩放。
多尺度特征提取：使用一个预训练的卷积骨干网络（Backbone），分别提取每一帧图像在不同层级的特征图。假设我们取三个尺度：Scale1 (高分辨率),Scale2 (中分辨率),Scale3 (低分辨率)。输出为三个特征序列集合：{F1_t}, {F2_t}, {F3_t}, t=1...T。
层次化特征融合模块：这是核心创新模块。它接收多尺度特征序列，并执行如前所述的尺度内提炼和跨尺度融合。输出一个统一且增强的时空特征序列Z，其每个元素都融合了多尺度、多帧的信息。
时空Transformer编码器：将融合后的特征序列Z输入一个标准的Transformer编码器（或为其设计的变体）。这个编码器由多层组成，每层包含多头自注意力（MSA）和前馈网络（FFN）。在这里，注意力机制同时在时间维和空间维（将特征图展平为序列）上运作，捕捉复杂的时空依赖。
预测头：从Transformer编码器输出的序列中，提取用于预测的代表性特征（例如，使用[CLS] token的状态，或对时空序列进行全局平均池化）。然后通过一个简单的多层感知机（MLP），回归出最终的碰撞时间（TTC）值。有些设计还会同时预测一个不确定性分数或碰撞概率。

3.2 关键模块一：跨尺度特征融合单元

如何实现优雅的跨尺度融合？常见的有两种设计：

基于Transformer的融合：将不同尺度的特征图分别通过线性投影调整到统一的通道数，然后展平并拼接成一个长的特征序列，直接送入Transformer。Transformer的注意力机制会自动学习不同尺度特征间的相关性。这种方法简单粗暴，但计算量较大，且可能给模型带来学习难度。
基于卷积与上采样的融合：这是一种更显式、更高效的设计。例如，采用类似FPN（特征金字塔网络）的结构。先将深层的小尺度特征上采样，与浅层的大尺度特征进行逐元素相加或拼接，然后再用卷积进行融合。在CollideNet的层次化设计中，可能会将这种融合过程重复多次，形成“U-Net”式的结构，确保信息在不同尺度间充分流动。

我的实操心得：在资源受限的边缘设备（如车载计算单元）上，基于卷积的融合方式通常更受欢迎，因为它计算效率更高。而在追求极致精度的云端训练中，可以尝试更复杂的基于Transformer的融合模块。一个折中的好办法是，在融合路径中加入轻量化的注意力模块（如SE模块、CBAM），让模型自适应地调整来自不同尺度特征的贡献权重。

3.3 关键模块二：时空位置编码

Transformer本身是置换不变的（Permutation-Invariant），它需要位置编码来注入序列中元素的顺序信息。对于CollideNet，我们需要两种位置编码：

空间位置编码：告诉模型特征点在图像中的（x, y）位置。可以使用标准的2D正弦余弦编码。
时间位置编码：告诉模型特征来自哪一帧。可以使用1D的正弦余弦编码。

在实现时，通常将空间编码和时间编码相加，共同作为输入特征的补充信息。这一点至关重要，缺失了位置编码，模型将无法理解物体的运动和位置变化。

3.4 关键模块三：轻量化与效率优化

原始的Transformer计算复杂度与序列长度的平方成正比。对于高分辨率的特征图，直接展平会带来巨大的计算负担。CollideNet通常会采用以下策略进行优化：

局部窗口注意力：借鉴Swin Transformer的思想，将特征图划分成不重叠的局部窗口，只在每个窗口内计算自注意力。这能显著降低计算量。
轴向注意力：将二维的全局注意力分解为先后在行方向和列方向进行的一维注意力，复杂度从O(N²)降到O(N√N)。
下采样特征序列：在送入Transformer之前，先对特征图进行适度的空间下采样，减少序列长度。

在复现时，需要根据你的目标平台（GPU服务器 vs. 嵌入式芯片）和实时性要求，谨慎选择这些优化策略。

4. 数据准备、训练策略与损失函数设计

再好的架构，没有正确的数据和训练方法也是徒劳。这部分是项目落地的重中之重。

4.1 数据集选择与构建

公开的、专门用于碰撞时间预测的数据集并不多。常见的策略有：

使用自动驾驶数据集：这是最丰富的来源。
- nuScenes, Waymo Open Dataset：这些数据集提供了高质量的相机图像、激光雷达点云和精确的物体3D标注框。你可以通过计算自车与标注物体之间的相对距离和速度，生成“真值”TTC标签。但需要注意，这些TTC是基于几何计算的，本身就带有传感器误差，并非完美真值。
- KITTI, Cityscapes：也可用于生成，但可能需要更多的前处理工作。
合成数据生成：在仿真环境（如CARLA, AirSim）中，可以精确控制车辆、行人的运动，并毫无误差地获取真实的碰撞时间。这是获取大量、干净训练数据的好方法，但存在仿真到现实的域差距问题。
数据预处理关键步骤：
- 序列采样：确定输入序列长度T（如5-10帧）和帧采样间隔（如0.1秒）。间隔太短，运动变化不明显；间隔太长，可能丢失快速运动信息。
- 标签生成：对于每一段序列的最后一帧，计算自车与每个感兴趣物体（车辆、行人、自行车）在未来发生碰撞的时间。通常，我们只关心正前方的物体，并可能设定一个最大预测范围（如10秒）。
- 数据增强：时空序列的数据增强需要小心。空间上的增强（裁剪、翻转、颜色抖动）可以应用在每一帧上，但要保证所有帧的变换是一致的，否则会破坏时序一致性。时间上的增强（如随机丢帧、改变播放速度）使用需谨慎，可能改变物理规律。

4.2 损失函数设计：回归的艺术

碰撞时间预测是一个回归问题，最直接的损失是平滑L1损失或MSE损失。但仅仅这样是不够的。

加权损失：距离碰撞时间越近的样本，其预测误差带来的风险越大。因此，可以为损失函数增加一个与真值TTC成反比的权重，让模型更关注即将发生的碰撞。
```
weight = alpha / (TTC_gt + epsilon) loss = weight * SmoothL1Loss(TTC_pred, TTC_gt)
```
不确定性估计：让模型同时预测一个不确定性值（如方差）。损失函数可以变为负对数似然损失。这能让模型在难以预测的情况下“承认”自己不确定，输出更大的方差，下游决策系统可以据此采取更保守的策略。
```
# 假设预测为高斯分布：均值 mu, 方差 sigma^2 loss = 0.5 * (log(sigma^2) + (TTC_gt - mu)^2 / sigma^2)
```
辅助任务损失：为了帮助模型学习更好的特征，可以引入辅助任务，如：
- 深度估计：让模型同时预测单目深度图，共享骨干网络特征。
- 光流估计：预测相邻帧间的运动场。这些任务的损失与主损失加权求和，形成多任务学习框架，往往能提升主任务的性能。

4.3 训练技巧与调参经验

骨干网络初始化：强烈建议使用在大型图像数据集（如ImageNet）上预训练好的权重初始化卷积骨干网络。这能提供强大的基础视觉特征。
Transformer部分初始化：Transformer编码器可以随机初始化，也可以使用在自然语言或其他视觉任务上预训练的权重进行迁移学习，但后者适配可能更复杂。
学习率与优化器：使用AdamW优化器，并采用带热启动（Warmup）的学习率调度策略。对于Transformer层，通常需要设置比卷积骨干更高的学习率（例如，骨干lr * 10）。
梯度裁剪：Transformer训练中梯度可能爆炸，梯度裁剪（Gradient Clipping）是标准操作。
验证指标：除了平均绝对误差（MAE）、均方根误差（RMSE），更应关注危险场景下的指标，例如：
- TTC < 3秒的样本的预测误差。
- 误报率（预测危险但实际安全）和漏报率（预测安全但实际危险）。定义一个危险阈值（如2秒），计算分类意义上的精度和召回率。

5. 实战复现：从代码到部署的完整路径

理论说了这么多，我们来点实际的。假设我们要用PyTorch复现一个简化版的CollideNet。

5.1 环境搭建与依赖

# 基础环境 conda create -n collidenet python=3.8 conda activate collidenet pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 --extra-index-url https://download.pytorch.org/whl/cu113 pip install timm # 用于预训练模型 pip install opencv-python pillow matplotlib tqdm tensorboard

5.2 核心代码结构

collidenet/ ├── configs/ # 配置文件 ├── data/ # 数据加载与处理 │ ├── datasets.py │ └── transforms.py ├── models/ │ ├── __init__.py │ ├── backbone.py # 特征提取骨干 │ ├── fusion_module.py # 层次化多尺度融合模块 │ ├── transformer.py # 时空Transformer编码器 │ └── collidenet.py # 整体模型组装 ├── losses.py # 损失函数 ├── trainers.py # 训练循环 ├── utils/ # 工具函数 └── train.py # 主训练脚本

5.3 模型定义核心片段

以下是一个高度简化的融合模块和主模型示例，展示了核心思想：

import torch import torch.nn as nn import torch.nn.functional as F class HierarchicalFusionModule(nn.Module): """一个简单的基于卷积的层次化融合模块（两尺度示例）""" def __init__(self, c1, c2): super().__init__() # 对深层特征（小尺度）进行上采样和通道调整 self.up_conv = nn.Sequential( nn.Conv2d(c2, c1, kernel_size=1), nn.Upsample(scale_factor=2, mode='bilinear', align_corners=False) ) # 融合后的卷积 self.fusion_conv = nn.Sequential( nn.Conv2d(c1*2, c1, kernel_size=3, padding=1), nn.BatchNorm2d(c1), nn.ReLU(inplace=True) ) def forward(self, feat_high_res, feat_low_res): # feat_high_res: [B, T, C1, H, W], 高分辨率特征 # feat_low_res: [B, T, C2, H/2, W/2], 低分辨率特征 B, T, C2, H_l, W_l = feat_low_res.shape _, _, C1, H_h, W_h = feat_high_res.shape # 调整低分辨率特征 feat_low_res = feat_low_res.view(B*T, C2, H_l, W_l) feat_low_up = self.up_conv(feat_low_res) # [B*T, C1, H_h, W_h] feat_low_up = feat_low_up.view(B, T, C1, H_h, W_h) # 沿通道维度拼接并融合 fused = torch.cat([feat_high_res, feat_low_up], dim=2) # [B, T, 2*C1, H, W] fused = fused.view(B*T, 2*C1, H_h, W_h) fused = self.fusion_conv(fused) fused = fused.view(B, T, C1, H_h, W_h) return fused class SimpleCollideNet(nn.Module): def __init__(self, backbone='resnet18', seq_len=5, num_heads=8, num_layers=4): super().__init__() # 1. 骨干网络（取两个尺度特征） self.backbone = timm.create_model(backbone, features_only=True, pretrained=True, out_indices=[2, 4]) # 假设输出通道数 c1, c2 = 128, 512 # 2. 层次化融合模块 self.fusion = HierarchicalFusionModule(c1, c2) # 3. 时空位置编码 & Transformer self.temporal_pos_embed = nn.Parameter(torch.randn(1, seq_len, 1)) self.spatial_pos_embed = nn.Parameter(torch.randn(1, 1, c1, 32, 32)) # 假设融合后特征图大小32x32 encoder_layer = nn.TransformerEncoderLayer(d_model=c1, nhead=num_heads, batch_first=True) self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers) # 4. 预测头 self.pool = nn.AdaptiveAvgPool3d((1, 1, 1)) # 时空全局平均池化 self.head = nn.Sequential( nn.Linear(c1, 128), nn.ReLU(), nn.Dropout(0.2), nn.Linear(128, 1) # 预测TTC ) def forward(self, x): # x: [B, T, C, H, W] B, T, C, H, W = x.shape features = [] for t in range(T): # 逐帧提取特征 f1, f2 = self.backbone(x[:, t]) # f1: [B, C1, H1, W1], f2: [B, C2, H2, W2] features.append((f1, f2)) # 重组特征 feat_high_res = torch.stack([f[0] for f in features], dim=1) # [B, T, C1, H1, W1] feat_low_res = torch.stack([f[1] for f in features], dim=1) # [B, T, C2, H2, W2] # 融合 fused_feat = self.fusion(feat_high_res, feat_low_res) # [B, T, C1, H, W] # 添加位置编码 fused_feat = fused_feat + self.temporal_pos_embed.view(1, T, 1, 1, 1) fused_feat = fused_feat + self.spatial_pos_embed # 准备Transformer输入: 将空间维度展平 B, T, C, H, W = fused_feat.shape fused_feat = fused_feat.permute(0, 1, 3, 4, 2).contiguous() # [B, T, H, W, C] fused_feat = fused_feat.view(B, T*H*W, C) # [B, L, C], L = T*H*W # Transformer编码 encoded = self.transformer(fused_feat) # [B, L, C] # 全局池化并预测 encoded = encoded.view(B, T, H, W, C).permute(0, 4, 1, 2, 3).contiguous() # [B, C, T, H, W] pooled = self.pool(encoded).squeeze() # [B, C] ttc = self.head(pooled).squeeze(-1) # [B] return ttc

5.4 训练脚本要点

# train.py 核心循环简化 model = SimpleCollideNet().cuda() criterion = nn.SmoothL1Loss() optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.01) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=epochs) for epoch in range(num_epochs): model.train() for batch_idx, (image_seq, ttc_label) in enumerate(train_loader): image_seq, ttc_label = image_seq.cuda(), ttc_label.cuda() optimizer.zero_grad() ttc_pred = model(image_seq) loss = criterion(ttc_pred, ttc_label) loss.backward() torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0) # 梯度裁剪 optimizer.step() scheduler.step() # ... 验证循环

6. 常见问题、调试技巧与性能优化

在实际复现和部署CollideNet时，你几乎一定会遇到下面这些问题。我把我的踩坑经验总结在这里。

6.1 训练不稳定或发散

症状：损失值变成NaN，或剧烈震荡。
排查与解决：
1. 检查数据与标签：首先确认数据加载是否正确，TTC标签是否有异常值（负数或极大值）。对标签进行归一化（如除以一个最大时间值）有时能稳定训练。
2. 梯度裁剪：这是Transformer训练的标配。将clip_grad_norm_的值设为0.5到1.0之间。
3. 学习率与Warmup：尝试更小的初始学习率（如1e-5），并加入Warmup。例如，在前1000个step内，将学习率从0线性增加到预设值。
4. 检查位置编码：确保空间位置编码的尺寸与特征图尺寸完全匹配。不匹配的位置编码是导致训练发散的常见元凶。
5. 损失函数：将MSE损失换成对异常值更不敏感的Smooth L1 Loss。

6.2 模型预测值有偏（系统性偏差）

症状：模型在所有样本上的预测值普遍偏大或偏小。
排查与解决：
1. 输出层初始化：检查预测头（最后的MLP）的权重初始化。将其最后一个线性层的权重初始化为接近零的小值，偏置（bias）初始化为数据标签的均值（例如，你的数据集中TTC的平均值大约是3秒，就把bias初始化为3）。这能给模型一个合理的起点。
2. 标签分布：观察训练集标签的分布。如果分布极度不均衡（例如，绝大多数TTC都大于5秒），模型会倾向于预测一个安全的中间值。可以考虑对损失进行加权，或者对困难样本（短TTC）进行过采样。

6.3 模型对运动突变反应迟钝

症状：当目标突然加速或减速时，模型预测的TTC更新缓慢。
排查与解决：
1. 增加时间分辨率：缩短输入帧之间的时间间隔，让模型能看到更细微的运动变化。
2. 引入显式运动特征：除了RGB帧，可以将计算好的光流图（Optical Flow）作为额外的输入通道。光流直接编码了像素级运动信息，能极大提升模型对运动变化的敏感度。
3. 注意力可视化：使用工具（如Captum库）可视化Transformer中注意力权重的分布。看看在目标加速的帧，模型的注意力是否正确地聚焦到了运动变化的区域。如果没有，可能需要调整模型结构或增加相关训练数据。

6.4 模型在边缘设备上推理速度慢

症状：帧率（FPS）达不到实时要求（如10FPS）。
优化策略：
1. 骨干网络轻量化：将ResNet50换成MobileNetV3、EfficientNet-Lite或ShuffleNetV2。
2. Transformer轻量化：减少Transformer的层数（num_layers）和头数（num_heads）。使用前面提到的局部窗口注意力或轴向注意力。
3. 降低输入分辨率：这是最有效的提速方法之一。将输入图像从224x224降到112x112，速度能提升近4倍，但精度会有所损失，需要权衡。
4. 模型剪枝与量化：训练后，对模型进行剪枝（移除不重要的权重）和INT8量化，可以大幅减少模型体积和提升推理速度，尤其适合在NPU上部署。
5. 使用TensorRT或ONNX Runtime：将PyTorch模型导出为ONNX格式，并用TensorRT或ONNX Runtime进行推理优化，能获得显著的性能提升。

6.5 仿真数据训练的模型在真实世界表现差

症状：在CARLA里表现完美，装到实车上就“瞎了”。
解决思路（域适应）：
1. 数据混合训练：用少量珍贵的真实数据（哪怕只有几小时）和大量的仿真数据一起训练。真实数据能帮助模型“锚定”现实世界的视觉特性。
2. 风格迁移：使用CycleGAN等模型，将仿真图像的风格转换为更接近真实图像的风格，然后再用于训练。
3. 无监督域适应：在训练中，加入一个域分类器，让模型学习提取域不变的特征。或者使用对抗性训练，让特征提取器无法区分特征来自仿真域还是真实域。

7. 效果评估、可视化与迭代方向

模型训练好了，怎么知道它行不行？光看损失下降可不够。

7.1 定量评估指标

建立一个全面的测试集，包含各种场景：白天/黑夜、晴天/雨天、高速公路/城市街道、匀速/加减速、前方有车/有行人/有自行车。

回归指标：
- MAE (Mean Absolute Error)：平均绝对误差，最直观。
- RMSE (Root Mean Square Error)：均方根误差，对大误差惩罚更重。
- δ-accuracy：预测值与真值之比落在一定范围内的比例，例如 δ<1.25, δ<1.25², δ<1.25³。这在深度估计中常用，也适用于TTC。
分类指标（基于阈值）：
- 设定一个危险TTC阈值（如tau=2秒）。
- 将预测值二值化为“危险”（TTC_pred < tau）和“安全”（TTC_pred >= tau）。
- 计算精确率、召回率、F1分数。对于安全系统，高召回率（尽可能不漏报危险）往往比高精确率更重要。

7.2 定性可视化：让模型“说话”

可视化是理解模型行为和调试问题的利器。

注意力图可视化：将Transformer最后一层注意力权重（对[CLS] token或某个空间位置的注意力）叠加回原图。你可以看到在做出预测时，模型到底在“看”哪里。理想情况下，在碰撞风险高时，注意力应集中在前方快速放大的物体上。
预测结果叠加：在视频序列上，用数字和进度条实时显示模型预测的TTC。同时，用基于几何方法（如雷达/激光雷达）计算的TTC作为对比基准。这能直观展示模型在哪些场景下优于传统方法，在哪些场景下还有不足。
误差案例分析：建立一个“错误案例库”，专门收集模型预测误差大的样本。手动分析这些案例，找出共同模式：是遮挡问题？是反光问题？还是对非常规形状的物体（如工程车）识别不好？这能为下一步的数据收集和模型改进提供明确方向。

7.3 可能的迭代与进阶方向

如果你已经跑通了基础版本的CollideNet，可以尝试以下方向进行深化：

引入多模态融合：将相机图像与低成本的毫米波雷达点云（提供速度信息）或激光雷达的稀疏深度信息进行融合。Transformer在处理异构序列数据（如图像+点云序列）方面有天然优势。
端到端运动规划：不满足于只输出TTC？可以尝试将CollideNet作为感知模块，与一个基于强化学习或优化方法的运动规划模块连接起来，进行端到端的训练，直接输出控制指令（转向、油门、刹车）。
不确定性引导的主动感知：利用模型预测的不确定性分数。当不确定性高时，可以触发更复杂的感知算法（如启动激光雷达高精度扫描），或让车辆采取更保守的驾驶策略（如减速）。
面向开集世界的泛化：训练数据里没有的物体（比如路上一个翻滚的轮胎）怎么办？研究如何让模型具备一定的“常识”推理能力，对于未知物体也能基于其视觉外观和运动模式估计碰撞风险，这将是通向更高阶智能的关键。

从我自己的实验来看，CollideNet所代表的“基于视觉序列直接理解碰撞风险”的思路，确实比传统几何方法有更强的鲁棒性和前瞻性。尤其是在传感器受限或目标运动复杂的场景下，其优势明显。但这条路也对数据质量、模型设计和工程实现提出了更高的要求。复现这样一个项目，最大的收获不是得到一个可用的模型，而是在这个过程中，你会被迫深入思考感知、时序建模与安全决策之间错综复杂的关系。每一个调参的夜晚，每一次对bad case的分析，都在加深你对“机器如何理解动态世界”这一根本问题的认识。