📅 发布时间:2026/6/22 5:34:56 题目内容已知大模型常用的 Attention 模块定义如下:Y=softmax(QKTh)VY = \text{softmax}\left(\frac{QK^T}{\sqrt{h}}\right)VY=softmax