注意力机制 Attention Mechanism

一句话定义

注意力通过可学习权重在输入元素间分配关注，实现动态信息聚合。

问题设定

输入：查询 $Q$、键 $K$、值 $V$。
输出：加权表示。
假设：相关性可通过相似度度量。
边界：注意力计算成本高。

数学表述

\(\text{Attn}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V\)

算法解释

查询决定关注位置。
软选择替代硬对齐。

优化与实现细节

数值要点：缩放避免内积过大；mask 控制依赖。

关联与边界

与 Transformer 关系：注意力是其核心算子。
与 RNN 对齐：注意力缓解长序列信息瓶颈。

失败模式

注意力稀释导致信息丢失。
过大序列导致内存爆炸。

最小伪代码

Input: Q,K,V
Compute scores = QK^T / sqrt(d)
Apply softmax and multiply V

决策清单

需要动态信息聚合
序列长度可承受

个人备注

TODO