文章核心总结与翻译一、主要内容该研究聚焦Transformer模型中上下文学习(ICL)的特性,核心发现是ICL具有暂时性:在训练过程中,ICL会先出现,随后在训练损失持续下降的情况下逐渐消失,被权重内学习(IWL)取代。实验设计:构建基于Omniglot图像数据集和LLaMa语言模型token嵌入的合成数据集,设计支持ICL和IWL两种策略的训练任务,通过专属评估序列分别度量两种学习模式的性能。关键发现:ICL的暂时性在不同模型规模(深度、宽度)、数据集大小(类别数、类内样本数)和数据类型(图像、语言token嵌入)中均存在;数据分布特性(如Zipfian偏斜分布、高类别数)可延缓ICL衰退,但无法彻底消除;L2正则化能有效抑制ICL暂时性,甚至实现ICL的持续存在,而过强正则化会导致模型性能退化;ICL暂时性的核心原因是ICL与IWL电路在Transformer残差流中存在资源竞争,IWL在渐近训练中更受青睐。实践启示:过度训练可能导致模型丢失ICL能力,需通过早期停止或正则化平衡ICL与IWL,小型模型优化需重视这一现象。二、创新点首次揭示ICL的暂时性本质,挑战了“ICL一旦出现便会