当前位置：首页 > news >正文

从LSTM到Mamba：为什么说双向状态空间模型是处理视觉序列的“潜力股”？

news 2026/6/13 15:02:22

从LSTM到Mamba：双向状态空间模型如何重塑视觉序列建模

在计算机视觉领域，序列建模的演进历程如同一部技术进化史。从早期循环神经网络（RNN）的时序记忆，到长短期记忆网络（LSTM）对梯度消失问题的突破，再到Transformer带来的自注意力革命，每一次架构创新都在重新定义机器理解视觉世界的方式。而最新登场的Mamba架构，特别是其双向状态空间模型（SSM）的设计，正在以线性计算复杂度的优势挑战Transformer的统治地位。

1. 序列建模的技术演进：从文本到图像的范式迁移

1.1 RNN/LSTM时代的序列处理哲学

早期的序列建模主要围绕文本数据展开，RNN通过隐藏状态传递历史信息，实现了基础的序列记忆能力。但面对长序列时，梯度消失问题成为致命瓶颈。LSTM通过精心设计的"门控机制"（输入门、遗忘门、输出门）解决了这一难题，其核心创新在于：

选择性记忆：遗忘门决定保留多少历史信息
信息过滤：输入门控制新信息的纳入比例
梯度高速公路：细胞状态保持梯度稳定流动

# 典型LSTM单元的核心计算流程 input_gate = sigmoid(W_i * [h_prev, x_t] + b_i) forget_gate = sigmoid(W_f * [h_prev, x_t] + b_f) output_gate = sigmoid(W_o * [h_prev, x_t] + b_o) cell_state = forget_gate * c_prev + input_gate * tanh(W_c * [h_prev, x_t] + b_c) hidden_state = output_gate * tanh(cell_state)

提示：虽然LSTM缓解了长程依赖问题，但其串行计算特性导致训练速度受限，且对图像这类高维序列的建模效率仍然不足。

1.2 Transformer的并行化突破

Transformer通过自注意力机制实现了序列处理的并行化，其核心优势在于：

特性	RNN/LSTM	Transformer
计算复杂度	O(n)	O(n²)
并行能力	无	完全并行
长程依赖处理	中等	优秀
位置信息处理	天然有序	需要位置编码

当Vision Transformer（ViT）将图像划分为patch序列后，Transformer成功跨界到计算机视觉领域。但面对高分辨率图像时，平方级增长的计算开销成为新的瓶颈。

2. 状态空间模型：序列建模的第三种范式

2.1 从控制系统到深度学习

状态空间模型源自控制理论，其数学表述为：

h'(t) = A h(t) + B x(t) y(t) = C h(t) + D x(t)

其中A、B、C、D是可学习参数矩阵。当离散化处理后，该模型展现出三个关键特性：

线性复杂度：与序列长度n呈线性关系
递归结构：类似RNN的序列处理方式
卷积视角：可转换为全局卷积操作

2.2 Mamba的架构创新

Mamba在传统SSM基础上引入了两项关键改进：

选择性机制：参数A、B、C根据输入动态变化
硬件感知算法：通过并行扫描优化GPU内存访问

这些创新使Mamba在语言建模任务中展现出超越Transformer的性能，特别是在长序列场景下。

3. Vision Mamba：视觉序列建模的新范式

3.1 双向处理的必要性

与文本序列不同，图像patch序列具有更强的空间对称性。Vision Mamba（Vim）采用双向SSM处理，同时捕获前向和后向上下文：

前向扫描：从左上到右下处理图像块
反向扫描：从右下到左上二次处理
特征融合：双向状态向量拼接形成最终表示

这种设计类似于双向LSTM，但在计算效率上显著提升：

# 双向SSM处理伪代码 def bidirectional_ssm(x): # 前向处理 h_forward = scan(SSM_forward, x) # 反向处理 h_backward = scan(SSM_backward, reverse(x)) # 特征融合 return concat(h_forward, h_backward)