当前位置: 首页 > news >正文

气象预测长期误差太难搞?ICML 2026 这项成果用“累积上下文”给出了最优解

EMFormer团队 投稿量子位 | 公众号 QbitAI随着全球气候变化的复杂化气象预测正成为机器学习领域最具挑战性的赛道之一。近日国际机器学习顶会 ICML 2026 接收了论文《Efficient Multi-Scale Transformer for Accumulative Context Weather Forecasting》。这项研究提出的高效多尺度 Transformer 架构EMFormer不仅在气象预测中实现了精度与效率的双重飞跃更打破了领域壁垒在图像分类、语义分割等视觉任务中展现出强大的泛化性能。本文将深入解析这一模型背后的三大创新支柱看它如何精准捕捉跨尺度的时空特征并有效破解长期预测中的误差累积难题。研究背景气象预测的核心痛点的是什么气象预测尤其是多步长长期预测一直面临三大核心挑战气象预测尤其是多步长长期预测一直面临三大核心挑战多尺度特征难以高效捕捉大气系统中从微小气流到全球环流不同尺度的特征相互影响传统模型难以在高效计算的前提下全面提取多尺度信息长期预测误差累积随着预测时间延长误差会不断累积导致长期预测精度大幅下降同时难以保证时间一致性模型泛化能力不足多数气象预测模型仅针对特定任务设计难以迁移到其他领域如视觉任务通用性较差。针对这些痛点来自HKUST和Shanghai AI Lab的研究团队设计了EMFormer架构通过三大核心创新实现了气象预测与视觉任务的双向突破。图中包含三个阶段的新型流程示意图第一阶段 在大气变量上预训练 EMFormer。该过程采用了一种“修剪-恢复”架构具体包括一个修剪模块、一系列 EMFormer 块以及一个恢复模块第二阶段 累积上下文微调Accumulative Context Finetuning第三阶段 预测阶段涵盖气象预报与台风路径预测。核心创新EMFormer的三大关键设计团队的核心思路是以“高效多尺度特征提取”为核心结合“累积上下文微调”和“自适应损失函数”兼顾精度、效率与泛化能力。以下是三大创新点的详细解析创新点1Multi-Convs Layer——高效多尺度特征提取的核心传统多尺度模块需堆叠多个卷积分支计算成本高且梯度更新效率低。团队设计的Multi-Convs Layer通过融合三个不同尺度1×1、3×3、5×5的卷积核在单次前向传播中完成多尺度特征提取同时通过自定义CUDA核解耦反向传播保证每个尺度的梯度独立更新。如图3所示Multi-Convs Layer图3c相比传统多尺度模块图3a和标准重参数化模块图3b在保证功能等价和梯度等价的前提下将计算复杂度从ONₖₑᵣₙₑₗₛ-H₀-W₀-r²降至OH₀-W₀-rₘₐₓ²训练时间减少25%以上。理论证明Theorem 2.1表明Multi-Convs Layer与传统多尺度模块在功能和梯度上完全等价但计算效率提升显著为后续特征学习奠定了高效基础。创新点2Accumulative Context Finetuning——缓解误差累积提升时间一致性为解决长期预测中的误差累积问题团队提出累积上下文微调策略通过缓存前序步骤的KV对结合动态修剪机制保留关键历史信息同时避免内存溢出。如图4所示该策略通过三步实现KV缓存的动态更新与修剪计算当前注意力得分、融合历史得分与当前得分、修剪冗余KV对确保模型在长期预测中能够利用低误差历史状态提升时间一致性。消融实验表明相比无微调、标准微调累积上下文微调能显著提升长期预测精度10天预测的ACC提升至0.5389如表3所示。创新点3自适应混合损失函数——平衡多变量与地理特征气象数据存在两大特性不同变量如温度、气压的时间变化率差异大不同纬度的网格区域面积不同。团队设计了融合变量自适应损失与纬度自适应损失的混合损失函数通过正弦加权机制在训练过程中平滑切换损失重点。损失函数公式如下其中是纬度加权损失考虑网格面积差异是变量自适应损失为不同变量分配动态权重为可学习参数实现训练过程中从“地理校正”到“变量优化”的平滑过渡。理论证明Theorem 2.2表明会从-π/2单调演化至π/2确保损失重点的自适应切换有效提升预测精度。实验结果多任务验证性能全面超越基线团队在气象预测、台风路径预测、图像分类、语义分割四大任务中对EMFormer进行了全面验证所有实验均优于现有基线模型充分证明了模型的有效性与泛化能力。实验1气象预测ERA5数据集在1.4°ERA5数据集上团队的模型Oursw/ finetuning在6小时至10天的预测中RMSE均为最低ACC均为最高全面超越Pangu-Weather、Graphcast、Oneforecast等基线模型如表1所示。在0.25°ERA5数据集上EMFormer同样表现优异在多变量预测中RMSE显著低于基线模型如图5所示。实验2台风路径预测2024年台风数据在极端天气预测场景中团队选取2024年10个台风对比9个基线模型包括AIFS、ECMF、Pangu等EMFormer取得了最低的平均路径误差88.49km远低于次优模型的119.17km如表2所示尤其在长期台风路径预测中优势显著。实验3视觉任务ImageNet-1KADE20K为验证模型泛化能力团队将EMFormer应用于图像分类ImageNet-1K和语义分割ADE20K任务结果表明图像分类在tiny、small、base三个参数尺度下EMFormer的Top-1准确率均为最高分别为83.2%、84.1%、84.4%且参数和计算量低于同类模型如表5所示语义分割EMFormer-S和EMFormer-B在ADE20K上的mIoU分别达到46.7和49.6仅需同类模型75%的参数和25%的计算量如表6所示。核心贡献总结本次中稿ICML 2026的工作主要做出了以下三大贡献提出Multi-Convs Layer在保证功能和梯度等价的前提下实现高效多尺度特征提取大幅降低计算成本设计累积上下文微调策略有效缓解长期预测的误差累积提升时间一致性且可迁移至其他模型提出正弦加权混合损失函数平衡多变量与地理特征的优化需求同时实现EMFormer在气象与视觉任务中的高效泛化。从气象预测到视觉任务EMFormer的突破证明了多尺度Transformer架构在跨领域学习中的巨大潜力也为后续多尺度特征学习与跨领域模型设计提供了新的思路。作者团队香港科技大学(HKUST) 郭嵩院士 (IEEE Fellow) Shanghai AILab 白磊团队
http://www.rkmt.cn/news/1297500.html

相关文章:

  • 3步开启AI智囊团:让ChatALL帮你一键问遍所有大模型
  • 解决大文件压缩效率瓶颈的7-Zip-zstd深度指南
  • Linux系统下Vue开发环境搭建全攻略:从Node.js到Vite实战
  • Glur:SwiftUI渐进模糊效果库的终极指南
  • Blender FLIP Fluids源码解析:深入理解FLIP流体模拟引擎
  • 模拟人生4mod整合包下载及安装使用指南(已汉化)2026最新版分享
  • 暗黑破坏神2重制版自动化工具:D2R像素机器人完整指南
  • 如何快速提升Obsidian笔记体验:AnuPpuccin主题完整指南
  • 终极指南:如何用Chrome Markdown阅读器完美阅读本地Markdown文件
  • Sveltia CMS移动端体验:响应式设计如何完美适配不同设备
  • 终极容器镜像加速指南:3分钟解决海外镜像下载难题
  • Atlas TSDF技术揭秘:如何实现精准的3D几何表示
  • ROS2 RQT:从日志调试到节点拓扑的可视化实战
  • Veil-Evasion核心模块深度解析:从控制器到Payload生成
  • SyncedStore深度解析:揭秘CRDT技术如何实现无冲突数据同步
  • 别再傻傻做27次实验了!用SPSSAU三分钟搞定正交试验设计(附保姆级极差分析教程)
  • AI产业发展全景解析:技术突破、行业落地与未来展望
  • 高效自动化ADB驱动配置解决方案:一键完成Android调试环境搭建
  • DynamicData高级应用:数据虚拟化与分页优化的终极指南
  • Camo安全机制剖析:如何防止图像劫持与内容篡改的完整指南 [特殊字符]
  • Crafting Interpreters中文版实战:从扫描器到编译器的完整实现
  • Stable Diffusion v2-1-base:从文字到视觉艺术的魔法转换器
  • 二次分拣的前置场景
  • VScode+esp-idf:基于esp32-web-camera实现延时摄影与AVI合成(附源码)
  • 团队博客第六天
  • AI教师分身应用:教育行业AI落地的终极实践指南 [特殊字符]
  • Untrunc代码架构深度剖析:理解C++实现的视频修复引擎
  • JS逆向实战:瑞数412会话还原
  • DynamicData:革命性响应式集合库,简化.NET动态数据管理
  • AI-Aimbot硬件要求解析:如何为你的游戏选择最佳的AI瞄准方案