当前位置：首页 > news >正文

2025_NIPS_The Transient Nature of Emergent In-Context Learning in Transformers

news 2026/5/28 9:14:30

文章核心总结与翻译一、主要内容该研究聚焦Transformer模型中上下文学习（ICL）的特性，核心发现是ICL具有暂时性：在训练过程中，ICL会先出现，随后在训练损失持续下降的情况下逐渐消失，被权重内学习（IWL）取代。实验设计：构建基于Omniglot图像数据集和LLaMa语言模型token嵌入的合成数据集，设计支持ICL和IWL两种策略的训练任务，通过专属评估序列分别度量两种学习模式的性能。关键发现：ICL的暂时性在不同模型规模（深度、宽度）、数据集大小（类别数、类内样本数）和数据类型（图像、语言token嵌入）中均存在；数据分布特性（如Zipfian偏斜分布、高类别数）可延缓ICL衰退，但无法彻底消除；L2正则化能有效抑制ICL暂时性，甚至实现ICL的持续存在，而过强正则化会导致模型性能退化；ICL暂时性的核心原因是ICL与IWL电路在Transformer残差流中存在资源竞争，IWL在渐近训练中更受青睐。实践启示：过度训练可能导致模型丢失ICL能力，需通过早期停止或正则化平衡ICL与IWL，小型模型优化需重视这一现象。二、创新点首次揭示ICL的暂时性本质，挑战了“ICL一旦出现便会

http://www.rkmt.cn/news/1411928.html

相关文章：

从Wi-Fi信号到手机充电：用大白话聊聊麦克斯韦方程组到底在说啥

从分词原理到定价逻辑，开发者必读的Token全栈指南！

解决Keil MDK中ULINK2调试器跨版本兼容性问题

XOOER 数尔解读：生态五大 GEO 服务依托健康、安全、合规、元生、打造全新 AI 增长生态

LangChain 实践3 5无Function Call的结构化通用Agent 6Function Call 智能工具助手

从Cocos到App Store：为你的iOS游戏集成AdMob广告并搞定ATT授权与GDPR合规

【IEEE出版，有ISBN号，快速稳定检索，四川大学主办，高届数会议，历史优秀，往届均已实现EI、Scopus双检索，设评优环节】第九届计算机信息科学与应用技术国际学术会议（CISAT 2026）

53.Python 打造智能刷机系统，完美解决批量刷机、固件损坏、手动报错问题

STM32 C++调试新思路：手把手教你用std::cout替代printf输出日志到网络调试助手

RISC-V性能分析工具链优化与实战方案

别再乱用train_test_split了！用sklearn的KFold和StratifiedKFold让你的模型评估更靠谱

CoDe-R：基于LLM与专家规则的二进制代码语义恢复技术解析

大规模MIMO有限反馈优化：基站中心化信道探测与序列导频设计

LTE小区反复退服故障处理：RRU级联组网光路闪断导致DISABLED状态的分析与解决

察元AI超级智能体如何从安装离线大模型，不依赖外部大模型数据不出域进行知识问答

如何快速掌握SillyTavern：面向初学者的完整实践指南

2026最新楚雄市黄金回收白银回收铂金回收店铺实力口碑排行榜TOP5；K金+金条+银条+首饰回收靠谱门店及联系方式推荐 - 前途无量YY

老旧电视如何焕发新生？这款Android原生直播软件让安卓4.x设备重获高清直播能力

用Python和Pygame从零实现Boids鸟群算法：一个游戏开发者的视角

2026最新东兴市黄金回收白银回收铂金回收店铺实力口碑排行榜TOP5；K金+金条+银条+首饰回收靠谱门店及联系方式推荐 - 前途无量YY

Layuimini：无限级菜单系统的架构设计与企业级实现路径

音乐格式解放：当NCM加密遇到Go语言多线程转换

别再用通用Prompt写冥想文案！神经语言学家实测：3个微调参数让GPT生成内容通过正念教师资质审核

猫抓：当浏览器成为你的个人视频档案馆

leetcode思路-回溯最后一节（131.分割回文串、51.N皇后）

2026最新达州市黄金回收白银回收铂金回收店铺实力口碑排行榜TOP5；K金+金条+银条+首饰回收靠谱门店及联系方式推荐 - 前途无量YY

2026最新都江堰市黄金回收白银回收铂金回收店铺实力口碑排行榜TOP5；K金+金条+银条+首饰回收靠谱门店及联系方式推荐 - 前途无量YY

解锁Windows远程桌面多用户限制：RDPWrap完整部署与优化指南

2026最新的北京电动车运输公司怎么选？推荐一下哪家好 - 奔跑123

别再只用TB6612了！用DRV8833给Arduino智能小车做电机驱动，实测对比与避坑指南