一、研究背景与问题
背景:大型预训练模型在NLP和CV领域展现出强大的零样本/少样本学习能力,但在多变量时间序列(TS)预测领域,由于数据来源多样、分辨率不同、通道数各异,预训练模型的构建面临巨大挑战。
现有问题:
现有的TS预训练模型(如TimesFM、Moirai、Chronos等)规模庞大(数亿至数十亿参数),计算资源消耗高,推理速度慢。
大多数模型忽略通道间相关性和外生变量的影响,而这些在实际业务场景中至关重要。
模型部署门槛高,不适合资源受限的环境。
二、核心贡献与创新点
本文提出Tiny Time Mixers(TTM),一种极轻量级(最小仅1M参数)的多变量TS预测预训练模型,主要创新包括:
轻量级架构设计:
基于高效的TSMixer架构(MLP + 门控注意力),避免Transformer的二次时间复杂度。
支持CPU-only部署,推理和微调速度快,资源占用极低。
多分辨率预训练增强技术:
自适应分块(Adaptive Patching, AP):不同层使用不同分块长度,适应不同数据集特性。
多样本分辨率采样(Diverse Resolution Sampling, DRS):增加训练数据的分辨率多样性,提升泛化能力。
分辨率前缀微调(Resolution Prefix Tuning, RPT):在输入中显式加入分辨率信息,帮助模型区分不同频率的数据。
多层级建模策略:
预训练阶段:通道独立(channel-independent)方式,专注于时序模式学习。
微调阶段:启用通道混合(channel mixing),捕捉通道间相关性,并支持外生变量注入(Exogenous Mixer)。
灵活的预测长度适配(FLA):
支持通过剪枝(pruning)或递归预测(recursive)将预训练模型适配到不同的预测长度,无需重新训练。
三、实验与性能表现
预训练数据:使用约10亿样本,来自 Monash 和 LibCity 仓库,涵盖多种分辨率(秒级至天级)和领域。
评估数据集:11个公开数据集(包括ETT、Weather、Electricity、Traffic等),分为无外生变量(D1)和含外生变量(D2)两组。
主要结果:
零样本预测:TTM(1M~5M参数)在MSE上相比Moirai(14M~311M)提升4%~10%,相比TimesFM(200M)提升19%。
少样本(5%数据)微调:优于GPT4TS和Time-LLM,提升幅度达10%~15%。
全样本头探针(Head Probing):优于Moment,提升3%~4%。
计算效率:推理时间、GPU内存占用均显著低于所有对比模型,支持CPU执行。
外生变量建模:在BS、CC等数据集上,TTM-CM(带通道混合)优于TSMixer、GPT4TS等,提升15%~44%。
四、关键洞察与设计哲学
数据质量 > 数据数量:高分辨率多样性的预训练数据比单纯扩大数据量更有效。
轻量级也可具备强泛化能力:通过合理的架构设计和预训练策略,小模型同样能在多分辨率、多领域数据上取得SOTA效果。
实用性优先:支持外生变量、通道相关性、快速微调和低资源部署,满足工业场景需求。
五、局限性与未来工作
当前仅支持点预测(point forecasting),不支持概率预测。
对上下文长度敏感,不同长度需训练不同模型。
仅专注于预测任务,尚未扩展到分类、异常检测等其他TS任务。
未来计划:
扩展到更多下游任务(如分类、回归、异常检测)。
支持动态上下文长度自适应。
引入概率预测头,支持不确定性量化。
TTM是首个在TS预测领域验证“微型预训练模型”有效性的工作,通过精巧的架构设计、创新的预训练策略和多层级微调机制,在极小模型规模下实现了优于大型模型的零/少样本预测性能,同时具备极高的计算效率和部署灵活性,为资源受限场景下的TS预测提供了切实可行的解决方案。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
项目地址在这里,如下所示:
预训练模型发布地址在这里,如下所示:
摘要
大型预训练模型在自然语言和视觉任务的零样本/少样本学习中表现出色,但在多变量时间序列(TS)预测中,由于数据特征的多样性,它们面临挑战。因此,近年来的研究工作集中在开发预训练的时间序列预测模型上。这些模型,无论是从头构建还是从大型语言模型(LLM)改编而来,在零样本/少样本预测任务中表现出色。然而,它们受限于性能缓慢、计算需求高,并且忽略了跨通道和外生相关性。为解决此问题,我们介绍了 Tiny Time Mixers(TTM),这是一种紧凑型模型(从 1M 参数起步),具有有效的迁移学习能力,且仅使用公开的 TS 数据集进行训练。TTM 基于轻量级的 TSMixer 架构,并融入了诸如自适应分块(adaptive patching)、多样本分辨率采样(diverse resolution sampling)和分辨率前缀微调(resolution prefix tuning)等创新,以最小的模型容量处理不同分辨率数据集的预训练。此外,它采用多层级建模来捕捉通道相关性,并在微调期间注入外生信号。TTM 在零样本/少样本预测中优于现有的主流基准模型 (4−40%),同时显著降低了计算需求。此外,TTM 轻量级,甚至可以在仅 CPU 的机器上执行,增强了可用性,并促进了在资源受限环境中的更广泛应用。用于可复现性和研究用途的模型权重可在此处获取,而 Apache 许可下的企业用途权重可通过以下方式访问:初始的 TTMQ 变体在此处,最新的变体(TTM, TTME , TTMA )权重在此处(推荐使用)。TTM 模型的源代码及使用脚本可在此处获取。
1 引言
多变量时间序列(TS)预测是指根据多个相互关联的时间序列的历史值来预测其未来值。被预测的通道称为目标变量,而影响预测结果的通道则称为外生变量。该领域通过应用统计和机器学习(ML)方法,在气象、交通、零售和能源等多个领域取得了显著进展。
相关工作:多变量预测的最新进展以 Transformer [31] 方法的出现为标志,例如 PatchTST [22]、Autoformer [38] 和 FEDFormer [45] 等模型。这些模型相比传统的统计和机器学习方法展现了显著的改进。此外,基于 MLP-Mixer [30] 的架构,如 TSMixer [6] 和 TimeMixer [33],已成为高效的 Transformer 替代方案,与 Transformer counterparts 相比,计算需求降低了 2-3 倍,且精度无损。
图 1:\(\mathrm{TTM}_B\) 与开源预训练 TS 基准模型在规模、时间和准确性方面的概览。我们根据模型规模和每批次 CPU 推理时间绘制了每个模型。每个基线标注的 \(X\%\) 表示在评估基准中,该基线的预测精度比 TTM 的预测精度低 \(X\%\)。详细信息请参见表 [1-5]。
近来,研究界对构建用于 TS 预测的通用预训练或基础模型(FM)表现出了浓厚的兴趣,这些模型能够成功地将学习成果迁移到未见过的目标 TS 数据集,类似于 NLP 和视觉任务的成功。然而,由于公开数据集的有限性和跨应用领域的多样性,TS 领域的预训练尤其具有挑战性。2024 年初,这种兴趣最终促成了数个用于预测的“大型”和“海量”TS 预训练模型的发布,在研究界引起了相当大的兴奋。这些发布的模型包括 Moment[10]、TimesFM [3]、Chronos[2]、Moirai[35] 和 Lag-llama[26],它们成功地在零样本预测中建立了强大的基准。此外,还出现了一种趋势,即利用预训练的大型语言模型(LLM)进行 TS 预测,将预测任务视为一种跨领域迁移学习。这些通用的跨迁移方法,以近期的工作如 LLM-Time [11]、Time-LLM [15] 和 GPT4TS [46] 为代表,在零样本/少样本预测场景中展现出了有前景的结果。然而,这些“大型”TS 预训练模型中的大多数需要极高的计算资源,因为它们的规模从数亿到数十亿参数不等。鉴于近来“小型”语言模型[1][29][39]在解决实际工业环境中的资源和成本限制方面日益流行,本研究考虑了以下问题:在 TS 领域,“微型”预训练模型能否也取得成功?如果可以,它们能否在显著降低计算资源和运行时间的情况下,超越“大型”TS 预训练模型的零样本/少样本预测结果?令人惊讶的是,正如我们在本工作中所展示的,答案是肯定的。
然而,这些大型 TS 预训练模型中的大多数需要极高的计算资源,因为它们的规模从数亿到数十亿参数不等。鉴于近来“小型”语言模型[1][29][39]在解决实际工业环境中的资源和成本限制方面日益流行,本研究考虑了以下问题:在 TS 领域,“微型”预训练模型能否也取得成功?如果可以,它们能否在显著降低计算资源和运行时间的情况下,超越“大型”TS 预训练模型的零样本/少样本预测结果?令人惊讶的是,正如我们在本工作中所展示的,答案是肯定的。为此,我们提出了多层级 Tiny Time Mixers(TTM),这是一种显著更小的预训练模型(从 1 百万(M)参数起步),用于有效的零样本/少样本多变量预测。特别是,TTM 支持通道相关性和外生信号,这是多变量预测背景下关键且实际的业务需求,而许多现有的 TS 预训练模型缺乏这些功能。TTM 基于轻量级的 TSMixer 架构,该架构使用 MLPMixer 模块与简单的门控注意力交错,作为 Transformer 中二次时间复杂度的自注意力模块的替代方案,这使得 TTM 的预训练和微调极其快速。TTM 使用来自 Monash 和 LibCity 数据仓库的多个公共数据集(约 10 亿(B)个样本)进行预训练。请注意,这些数据集在特征上表现出相当大的多样性,例如不同的领域、时间分辨率<sup>4</sup>(从秒到天不等)、长度和通道数量。在如此异构的数据集上使用极小的模型进行预训练需要专门的架构改进。因此,TTM 对 TSMixer 架构提出了以下增强,以适应资源受限的预训练/微调:
(i)自适应分块(AP),考虑到不同数据集对分块长度的不同适用性,(ii)多样本分辨率采样(DRS),以增强数据,增加不同分辨率的覆盖范围,(iii)分辨率前缀微调(RPT),以在第一个分块中显式嵌入分辨率信息,便于在多样化数据集上训练时进行分辨率条件建模。此外,我们的方法利用多层级建模,其中 TTM 首先以通道独立的方式进行预训练,然后通过通道混合进行微调,以结合目标域中目标和外生通道之间的相关性。
TTM 关键能力概述:(1)在“大型”预训练模型占据主导地位、需要大量计算和训练时间的背景下,我们的工作是首个展示使用“微型”TS 预训练模型进行零样本/少样本预测的迁移学习能力的模型。(2)在具有极有限模型容量的异构多分辨率数据集上预训练微型模型具有挑战性。为此,我们提出了各种架构和训练增强方法,如 AP、DRS 和 RPT,用于稳健且资源受限的预训练/微调工作流(如上定义)。(3)TTM 采用多层级建模策略,以显式建模通道相关性,并整合外生信号——这是现有大多数预训练模型所缺乏的关键能力。(4)通过对 11 个数据集进行广泛的零样本/少样本预测评估,我们证实了 TTM 模型(小至 1M 参数)在提供显著计算优势的同时,其预测结果持续优于“大型”TS 预训练模型。图 1 突出显示了 TTM 在三个主要维度(规模、运行时间和准确性)上均优于主流基准模型。(5)鉴于其紧凑的规模,TTM 的零样本推理和微调可以轻松地在单个 GPU 或仅 CPU 环境中执行。这极大地促进了我们预训练模型的实际采用和易用性,扩展了其覆盖范围。
图 2:TTM 概述 (a) 参见第 2 节和第 3 节,(b) 参见第 3.1 节,(c) 参见第 3.2 节
2 TTM 组件
2.1 多层级建模:
TTM 遵循一个由四个关键组件组成的多层级架构(见图 2(a)):(1)TTM 主干网络(backbone)由源自高效 TSMixer 架构 [6] 的构建块组装而成。TSMixer 基于 MLP 模块与门控注意力交错,能够在最小计算需求下实现补丁内、补丁间和通道间特征的混合,超越了现有的基于 Transformer 的 TS 方法。由于 TSMixer 并非为处理具有有限容量的多分辨率数据而设计,我们对其引入了各种新颖的增强,如下所述。(2)TTM 解码器遵循与主干网络相同的架构,但规模显著更小,约为主干网络大小的 10−20%,(3)预测头(forecast head)由一个线性头组成,用于产生预测输出,以及(4)可选的外生混合器(Exogenous mixer)用于将外生数据融合到预测过程中。TTM 解码器和预测头共同构成 TTM 头(TTM head),其权重在微调过程中会被更新。这种多层级模型重构是为了根据工作流类型动态改变不同组件的工作行为,详见第 3 节。除上述主要组件外,还有一个预处理组件,如下所述。
2.2 预处理:
3 TTM 方法论
3.1 预训练工作流:
3.1.1 通过 TTM 主干网络进行多分辨率预训练:
在 TTM 中,我们的目标是创建极其微小但能够很好地泛化到具有不同分辨率的各种数据集的模型。这是一个重大的挑战,因为模型由于其较小的规模而容易欠拟合。为了应对这些资源受限的预训练挑战,我们对 TSMixer 主干网络引入了以下增强。
通过多样本分辨率采样(Diverse Resolution Sampling, DRS)进行增强:TS 预训练数据集中的一个重大挑战是缺乏具有多种分辨率的公共数据集。通常,高分辨率数据集由于其更精细的采样分辨率,会占据样本的更大比例。如果不调整训练策略,这可能导致模型偏向于更精细分辨率的数据。为了克服这一点,对高分辨率数据集应用了不同的策略,以平衡较低分辨率下的样本量,从而实现更均匀的覆盖。使用的策略包括:1)在连续的、不重叠的窗口中,对 k 个样本进行平均,以生成一个较低分辨率的数据集;2)传统的抽取(decimation)方法,即仅保留第 k 个样本。在这两种情况下,整数 k 的选择旨在根据基础数据集的分辨率达到所需的分辨率。例如,从一个 4 秒分辨率的数据集,我们推导出分钟级(k=15)和小时级(k=900)分辨率的多个数据集。请注意,原始的高分辨率数据集仍保留在预训练数据池中。这种方法增加了每个分辨率的数据集数量,极大地提高了模型性能。
分辨率前缀微调(Resolution Prefix Tuning, RPT):该技术根据输入分辨率,明确地学习并在输入数据中并入一个新的分块嵌入作为可学习的前缀(见图 2(b) 和表 8)。类似于前缀微调 [16] 的概念,这种方法向模型提供了一个关于分辨率的明确信号,用于进行分辨率条件建模。首先,我们将每个分辨率映射到一个唯一的整数,然后通过一个嵌入层将其投影到隐藏维度 hf。随后,我们跨所有通道扩展该嵌入,使其具有形状为 c×1×hf 的表示。这种基于分辨率的可学习嵌入在有限的建模容量下,对快速建模大量不同分辨率的数据集特别有益,因为模型可以轻松地将来自不同分辨率的数据解耦,进行分辨率条件建模。此外,当上下文长度(sl)较短时,RPT 也有所帮助。在这些场景中,自动检测分辨率对模型来说成为一个挑战。因此,通过将分辨率信息作为前缀显式融合,我们可以在不增加模型规模的情况下,增强模型跨分辨率有效学习的能力。
3.2 微调工作流:
在微调工作流中,我们处理来自目标域的数据,这些数据与预训练数据集没有重叠。我们有以下三种选择:(a)在零样本预测中,我们直接使用预训练模型对目标数据的测试部分进行评估;(b)在少样本预测中,我们仅使用目标数据训练部分的一小部分(5-10%)来快速更新 TTM 头的预训练权重,然后在测试部分上进行评估;(c)在全样本预测中,我们在目标数据的整个训练部分上微调 TTM 头的预训练权重,然后在测试部分上进行评估。
在微调期间,主干网络被冻结,并且仍然以通道独立的单变量方式运行。然而,TTM 头中的精简解码器可以利用通道混合或通道独立性进行微调,分别用于多变量或单变量目标数据。如果需要纯多变量建模,则解码器中所有 TSMixer 组件(见图 2(b))的通道混合器模块将被启用,以显式捕捉跨通道相关性。预测头和逆归一化执行与预训练阶段类似的操作。微调也使用 MSE 损失来优化预测目标。这种深思熟虑的多层级设计选择确保了我们的主干网络在通道独立预训练方面表现出色,能够在不同数据集上实现有效的时序相关性建模。同时,解码器处理目标数据特定任务,如通道相关性建模和微调。此外,如果目标数据包含外生变量,则会对实际预测应用外生混合器模块,如下所述。
4 实验与结果
4.1 数据集与指标:
4.2 SOTA 基准:
我们将 TTM 与 24 个最新的开源 SOTA 预测模型进行基准测试,这些模型分类如下:(a)TS 预训练模型:Lag-Llama [26],TimesFM [3],Moirai [35],Chronos [2] 和 Moment [10]。(b)基于 LLM 的 TS 预训练模型:GPT4TS [46],LLMTime [11],Time-LLM [15],UniTime [18](c)自监督预训练模型:SimMTM [5],Ti-MAE [17],TST [42],LaST [34],TF-C [43],CoST [36] 和 Ts2Vec [40](d)其他架构:PatchTST [22],TSMixer [6],TimeMixer [33],iTransformer [19],DLinear [41] 和 TimesNet [37],FEDFormer [45] 和 Autoformer [38]。
4.3 TTM 模型细节:
虽然 TTM 模型需要针对特定的预测长度(FL)进行预训练,但我们提供了两种预测长度适配(FLA)技术(在第 4.7 节中解释),使预训练的 TTM 能够适应不同的 FL。用户既可以为特定 FL 构建直接预训练的模型(来自上述变体之一),也可以使用 FLA 技术将现有的 TTM 模型适配到其应用场景。主要结果使用直接方法报告,并提供了详细的消融研究来比较各种 FLA 技术的有效性。在直接方法中,模型参数大小随 FL 变化,我们在结果表中报告平均参数大小。TTM 的微调和推理非常高效和快速,仅需 1 个 GPU 甚至 CPU 即可执行。所有模型超参数均基于验证性能选择,并报告最终测试结果。有关详细的模型规格和超参数,请参阅附录 D。
表 1:TTM 相对于 Moirai (ICML'24) 和 TimesFM (ICML'24) 的零样本预测改进 (f−imp) 和模型规模改进 (s−imp)。MSE 在 FL∈{96,192,336,720}上取平均。Electricity 和 Weather 的结果未报告 TimesFM,因为它们被 TimesFM 用于预训练。类似地,Traffic 被 Moirai 和 TimesFM 用于预训练。完整表格见附录 F.2。
4.4 TTM 的零样本性能和推理成本:
最近,流行的预训练模型如 TimesFM、Moirai、Chronos、Lag-llama 和 LLMTime 因其零样本(ZS)预测能力而受到关注。其中,Chronos、Lag-llama 和 LLMTime 的 ZS 推理时间较长,在测试集的所有滑动窗口上进行测试存在实际挑战。为解决此问题,LLMTime建议使用最后一个测试窗口进行基准测试,我们也采用这种做法来与这组 SOTA 模型进行比较。另一方面,TimesFM 和 Moirai 显示出相对更快的 ZS 推理速度,可以在测试集的所有滑动窗口上进行测试。表 1 展示了 TTM 与 Moirai 和 TimesFM 的性能比较。尽管参数显著减少,TTM 的变体在大多数基准变体上表现出一致的优越性。值得注意的是,TTMA 比所有 Moirai 变体小 3-62 倍,比 TimesFM 小 40 倍,但性能优于 Moirai 变体 4-10%,优于 TimesFM 19%。即使是只有 1M 参数的 TTMB,也以相当大的幅度优于大多数基准,凸显了 TTM 的有效性。此外,如附录 F.4 所示,在短上下文长度设置下,TTM 的零样本结果持续优于流行架构的全样本结果。类似地,表 2 展示了 TTM 与 Chronos 和 Lag-llama 在最后一个测试窗口集上的性能比较。如图所示,比 Chronos 小 8-709 倍的 TTMB 优于它 17-32%。类似地,比 Lag-llama 小 2-3 倍的 TTMBTTMB 优于它 40%。此外,如附录 F.3 所报告,TTM 也优于大规模模型 LLMTime 和 UniTime 超过 25%。表 3 展示了不同 TS 预训练模型每批次的推理时间和最大 GPU 内存需求。值得注意的是,TTM 在它们之中表现出最低的推理时间和内存使用量。
4.5 TTM 的少样本和全样本头探针(Head Probing)性能:
在运营部署中,用户通常利用少量目标数据进行微调以提升模型性能。在这方面,TTM 提供了一个高效的快速微调过程,使用户能够通过仅训练模型头部来迅速提高预测准确性。GPT4TS 和 Time-LLM 是两个展示了少样本训练结果的 SOTA 预训练模型。如表 4 所示,在仅使用 5% 训练数据进行微调的 5% 少样本设置下,TTMB 超越 GPT4TS 15%,超越 Time-LLM 10%。此外,我们还在表 4 中报告了几个流行 SOTA 架构的 5% 少样本结果,TTM 展现了优越的性能。这突显了 TTM 预训练权重的重要性,这些权重在数据受限的场景下对其有效性有显著贡献。同样,TTM 在少样本跨迁移学习任务中也表现出色,优于流行的 SOTA 方法(包括 SimMTM [5]),如附录 F.6 所示。
或者,如果目标数据集的完整训练集可用,则使用整个数据集进行头探针是可行的。这涉及在保持主干网络权重不变的情况下,使用所有可用数据微调模型头部。最近,Moment [10] 模型在头探针方面取得了 SOTA 结果,优于 GPT4TS 和 Time-LLM。然而,如表 5 所示,TTM 进一步优于 Moment 报告的结果 3-4%。此外,如附录 F.7 所描述,TTM 头探针结果与流行架构的完整端到端训练结果相比非常有竞争力。因此,TTM凭借其显著减小的模型规模和缺乏计算密集型组件(如自注意力),使得模型能够快速微调,而大规模 Transformer 模型则需要繁琐的过程。请注意,Moment 未包含在零样本/少样本预测结果的比较中,因为它没有报告这些结果。
表 3:TTM 相对于现有 TS 预训练模型的计算改进。报告了每批次在 GPU 和 CPU 上的推理时间、总参数(Params)和最大 GPU 内存使用量(MEM)。nX 表示 TTM 改进的缩放因子。设置细节见附录 D.3。
表 5:全样本头探针:在完整数据上微调预训练模型头部,冻结主干网络权重。MSE 在 FL96FL96, 720 上取平均,如 [10] 所报告。由于计算挑战,Time-LLM 在大型数据集上的结果未在 [10] 中报告(附录 F.7)。
表 6:解码器混合和外生融合的效果。使用 (sl,fl) 值报告 MSE 结果,对于 BS 数据集为 (512,96),对于其他 D2 数据集为 (96,24)。
4.6 TTM 在跨通道和外生建模中的有效性
由于先前实验中使用的数据集(D1)不包含外生变量,我们在另外4个数据集(D2,如第4.1节所述)上评估TTM的有效性,以量化其优势。由于这些数据集本身已经非常小,我们使用其完整数据进行微调。表6展示了预训练的TTM_Q模型在目标数据上进行微调,并启用了外生混合器模块和解码器通道混合(TTM-CM)后的性能。我们将TTM-CM与普通TTM微调以及其他从头开始训练的主要SOTA模型(PatchTST、TSMixer变体和GPT4TS)进行了比较。具体来说,我们与启用了通道混合的TSMixer(TSMixer-CM)和带有跨通道协调头(TSMixer-CC)[6]的TSMixer进行了比较,因为它们是通道相关性建模方面的最新SOTA方法。从表6可以看出,TTM-CM以显著的优势(15-44%)优于所有竞争模型,从而证明了TTM在捕捉通道间相关性方面的强大能力。
4.7 消融研究:本节分析了 TTM 中使用的各种技术的影响。
预训练数据(质量 vs 数量):图 3 展示了预训练数据和多样本分辨率采样(DRS)的关键作用。最初,当使用较小的 Monash 数据集(即 PT(M))预训练 TTM 时,零样本结果不理想。为了提升性能,我们在 Monash 数据上引入了 DRS 技术以增加多样性和覆盖范围(2.5 亿 PT 样本)。这显著地改善了结果,提升了 37%。此外,将数据集大小从 2.5 亿扩展到 10 亿进一步将结果提高了 6%。这些实验突显了,虽然预训练数据的数量很重要,但数据的质量,尤其是在分辨率多样性和覆盖范围方面,对于提升模型性能更为关键。
分辨率前缀微调(RPT)和自适应分块(AP)的效果:RPT 增强了预测性能,尤其是在使用大量且多样化的预训练(PT)数据时。添加可学习的分辨率前缀令牌使模型能够轻松地解耦不同分辨率下的权重,在 10 亿 PT 数据设置中带来了 3% 的提升(表 7)。RPT 在上下文长度非常短的场景下也有益,将性能提升了 8%(附录 F.9)。另一方面,AP 通常在所有设置下都能提高预测性能,但在 PT 数据较少的设置中影响始终较大(提升了 3%)。更多细节见附录 F.8。
4.8 TTM 模型洞察与可解释性
图 5 使用 PCA 投影展示了来自不同数据集(weather、traffic 和 electricity)的 TTM 嵌入,每个数据集用不同颜色表示。从每个数据集中,选择了三个时间上不相邻、不重叠的固定长度时间段(S-1, S-2, S-3),每个用独特的标记形状表示。可视化使用了 TTM 嵌入的第一和第二主成分。插图聚焦于 weather 数据集本身,揭示了 TTM 架构学习到的更深层结构。嵌入中的循环轨道反映了数据中的季节性模式。两个小时级数据集(traffic 和 electricity)由于相似的模式形成同心轨道,而具有独特季节性模式的 weather 数据则在不同的子维度上显示出循环轨道。此外,微调后模型的通道混合层中的跨通道注意力揭示了跨通道的特征重要性。如图 5 所示,模型关注诸如天气状况、季节、假日和温度等通道来预测自行车租赁数量。这些注意力模型权重与一般数据特征相关,其中自行车租赁需求受天气和假日的强烈影响,从而为微调模型的预测提供了解释。更多细节见附录 G。
4.9 关于 TTM 设计选择的讨论
在本节中,我们直观地解释 TTM 的重要设计选择,这些选择极大地提高了其预测准确性和迁移学习能力,尽管其模型容量极小:
所有现有的预训练模型都使用了非常大量的预训练数据(例如,TimesFM 使用了 300B,Moirai 使用了 270 亿个时间点),因此自然需要庞大的模型规模。然而,如图 3 所示,我们观察到“有限”的预训练数据与“高分辨率多样性”大大有助于时间序列模型的泛化,而不仅仅是增加预训练数据的大小。这是一个重要的观察和发现,即预训练数据中的分辨率多样性对时间序列 FM 至关重要。基于这些发现,我们采用了经过良好精简的数据集(10 亿样本),该数据集具有高分辨率多样性,这自然减小了我们的模型规模,相比于需要使用数千亿时间序列进行预训练的 counterparts。我们通过多样本分辨率采样技术(DRS)在数据中引入了高多样性,而我们的 counterparts 未能做到这一点。
其次,我们选择基于 TSMixer 的模型而非基于 Transformer 的模型,这进一步大幅减小了模型规模。TSMixer 架构过去已成功证明,将简单的门控注意力与跨补丁、通道和特征的混合组件交错使用,能够在模型容量非常有限的情况下显著提高预测精度,因为可以完全避免自注意力的二次时间复杂度。继 TSMixer 之后,其他几种混合器架构 [33][24] 已经发布,重申了这些简单架构的强大功能。因此,避免使用复杂的 Transformer 架构进一步显著减小了我们的模型规模。
此外,我们通过引入几个创新组件,如自适应分块、多样本分辨率采样和分辨率前缀微调,在不显著增加模型规模的情况下进一步增强了 TSMixer 的建模能力。这些增强对于有效地处理跨不同分辨率数据集的大规模预训练至关重要,同时保持模型容量极小。
最后,将预训练目标设定为直接预测任务,相比于传统的基于掩码的预训练方法,显示出更好的零样本性能。我们假设这种方法使模型能够在预训练期间有效地学习固定上下文和预测窗口之间复杂的非线性映射,这些映射能够很好地泛化到未见过的数据集。
5 结论与未来工作
我们提出了 TTM,一个极其轻量级的预训练模型,用于多变量时间序列预测。与现有的大型模型不同,TTM 显著更小、更快,并具有高效的预训练和微调工作流。结果表明,尽管模型容量有限,TTM 在异构数据集上的预训练非常有效。它在零样本/少样本预测中达到了 SOTA 结果,提供了显著的计算效率,同时捕捉跨通道关系和外生变量——这些关键特征在流行方法中常常缺失。此外,TTM 支持 CPU 和 GPU 部署,大大增强了其采用率和易用性。展望未来,我们计划将我们的方法推广到支持预测之外的其他下游任务。