当前位置：首页 > news >正文

T3Time: 针对多维时序预测的三模态融合 LLMs

news 2026/5/30 18:28:18

T3Time: Tri-Modal Time Series Forecasting via Adaptive Multi-Head Alignment and Residual Fusion

【论文地址】http://arxiv.org/abs/2508.04251
【论文源码】https://github.com/monaf-chowdhury/T3Time/

一、研究背景与问题

1.1 时间序列预测的挑战

多变量时间序列预测（MTSF）是现代决策系统的核心，应用于电力负荷平衡、城市交通管理、高频交易和天气预报等领域。有效模型需要同时捕捉：

短期时间波动
长期依赖关系
变量间复杂交互

1.2 现有方法的三大局限

论文指出当前方法存在三个根本性问题：

局限	说明
模态隔离	现有模型通常只强调单一模态（时间域或频域），忽略了其他模态的互补信息
对齐能力不足	即使使用多模态，也受限于有限的跨模态对齐能力，无法捕捉模态间的细粒度交互
预测范围僵化	采用静态处理策略，无法根据预测时间跨度调整模态的权重

二、T3Time 核心架构

T3Time是一个三模态框架，整合了时间域、频域和**提示（Prompt）**三种表示。

2.1 整体架构（图2）

┌─────────────────────────────────────────────────────────┐ │ 三模态编码层 │ ├─────────────┬─────────────┬─────────────────────────────┤ │ 频域编码分支 │ 时间序列编码分支 │ LLM编码分支 │ │ (Frequency) │ (Time) │ (Prompt) │ ├─────────────┴─────────────┴─────────────────────────────┤ │ 预测范围感知门控 (Horizon-Aware Gating) │ ├─────────────────────────────────────────────────────────┤ │ 自适应多头跨模态对齐 (Adaptive Multi-Head CMA) │ ├─────────────────────────────────────────────────────────┤ │ 通道级残差连接 (Channel-wise Residual) │ ├─────────────────────────────────────────────────────────┤ │ Transformer 解码器 → 输出预测 │ └─────────────────────────────────────────────────────────┘

2.2 三个编码分支详解

（1）频域编码分支

输入：原始时间序列经过实值快速傅里叶变换（FFT）
处理：保留幅度谱，将每个频率bin视为token，通过Transformer编码器建模频率分量间的依赖
聚合：使用可学习的注意力加权池化，将频率信息汇总为固定维度表示

（2）时间序列编码分支

将原始时间序列通过可学习的投影矩阵映射到嵌入空间
使用Transformer编码器捕捉时间依赖和演化模式

（3）LLM编码分支

使用冻结的GPT-2模型编码文本提示
提示模板包含：时间区间、数值序列、采样频率、趋势摘要
提取每个提示的最后一个token嵌入作为语义表示

三、关键创新模块

3.1 预测范围感知门控（Horizon-Aware Gating）

核心思想：短期预测更依赖时间局部表示，长期预测更受益于频域捕获的全局周期性模式。

数学表达：
g=σ(W4⋅ϕ(W3⋅gin⊤))⊤∈RB×C\mathbf{g} = \sigma(\mathbf{W}_4 \cdot \phi(\mathbf{W}_3 \cdot \mathbf{g}_{in}^\top))^\top \in \mathbb{R}^{B \times C}g=σ(W4⋅ϕ(W3⋅gin⊤))⊤∈RB×C

Zg=g⊙F~+(1−g)⊙Z~t\mathbf{Z}_g = \mathbf{g} \odot \tilde{\mathbf{F}} + (1-\mathbf{g}) \odot \tilde{\mathbf{Z}}_tZg=g⊙F~+(1−g)⊙Z~t

其中g\mathbf{g}g是门控权重，根据预测长度和时间编码内容动态调节频域和时间域特征的融合比例。

3.2 自适应多头跨模态对齐（Adaptive Multi-Head CMA）

改进点：TimeCMA使用单头对齐，T3Time扩展为多头+自适应融合。

流程：

每个CMA头独立计算时间-频谱融合特征与提示嵌入的交叉注意力
将多头输出拼接后，通过两层门控网络计算每个头的重要性分数πb,n(h)\pi_{b,n}^{(h)}πb,n(h)
加权聚合：Λb,:,n=∑h=1Hπb,n(h)⋅Hb,:,n(h)\mathbf{\Lambda}_{b,:,n} = \sum_{h=1}^{H} \pi_{b,n}^{(h)} \cdot \mathbf{H}_{b,:,n}^{(h)}Λb,:,n=∑h=1Hπb,n(h)⋅Hb,:,n(h)

优势：动态加权不同头的重要性，避免静态平均或固定投影的局限性。

3.3 通道级残差连接（Channel-wise Residual）

Θb,c,n=γc⊙Λb,c,n+(1−γc)⊙Zg,b,c,n\mathbf{\Theta}_{b,c,n} = \gamma_c \odot \mathbf{\Lambda}_{b,c,n} + (1-\gamma_c) \odot \mathbf{Z}_{g,b,c,n}Θb,c,n=γc⊙Λb,c,n+(1−γc)⊙Zg,b,c,n

γc∈[0,1]\gamma_c \in [0,1]γc∈[0,1]是每个通道可学习的残差系数
允许每个潜在维度自适应平衡跨模态信息与时-频证据

四、实验结果

4.1 长期预测（8个基准数据集）

对比模型	平均MSE降低	平均MAE降低
vs TimeCMA (最强提示模型)	3.28%	2.29%
vs Time-LLM	11.28%	6.20%
vs iTransformer	8.86%	6.10%

关键发现：在14/16个基线比较中达到SOTA，在66/80个测试案例中表现最佳。

4.2 少样本学习（Few-Shot）

训练数据比例	MSE提升	MAE提升
10% 数据	3.62%	1.98%
5% 数据	4.13%	1.91%

vs 近期SOTA（TimeCMA, TimeLLM, GPT4TS）：10%少样本任务中平均MSE降低7-13%。

4.3 消融实验（表4/表12）

移除模块	平均MSE上升	平均MAE上升	关键结论
残差连接	+8.36%	+5.25%	⚠️最关键组件
频域模块	+3.22%	+1.85%	频域信息对捕获周期性至关重要
多头CMA	~+2%	~+2%	多头机制提升对齐能力
门控机制	~+2%	~+2%	预测范围自适应有价值

五、t-SNE可视化分析

图3/图6展示了四种嵌入的降维可视化：

嵌入类型	特征	含义
时间序列嵌入	分散、碎片化	单独建模时间模式具有挑战性
频域嵌入	明显聚类	成功捕获有意义的周期性信息
提示嵌入	密集、分离良好	LLM注入了强语义结构
预测嵌入	平滑、紧凑（螺旋/圆形流形）	模型有效对齐了多模态信息