一、开篇:改变一切的 8 页论文2017 年 6 月 12 日,一篇仅8 页的论文出现在 arXiv 上:Attention Is All You NeedAshish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia PolosukhinGoogle Brain / Google Research / U. Toronto8 位作者,8 页内容,一个看似简单的想法:完全用注意力机制,不用 RNN,不用 CNN。论文标题里的那句话是个俏皮的双关——“注意力就是你需要的全部”——但事后看,这句话字面意义上完全正确。这篇论文做了什么?任务很普通:机器翻译(英语 → 德语)。数据集很标准:WMT 2014 En-De(约 450 万对句子)。结果:BLEU 28.4—— 比当时最好的 RNN 模型(GNMT)高2 个点,训练时间少 10 倍。但真