变换器 Transformer

一句话定义

Transformer 通过自注意力机制建模序列依赖，支持并行计算与全局交互。

问题设定

输入：序列 ${x_t}$ 与位置编码。
输出：序列表示或预测。
假设：全局依赖重要。
边界：注意力复杂度为 $O(T^2)$。

数学表述

自注意力： \(\text{Attn}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V\)

算法解释

通过注意力直接建模任意位置关系。
多头注意力增强表达能力。

优化与实现细节

数值要点：使用 LayerNorm、残差、学习率 warmup。
复杂度：$O(T^2)$ 时间与内存。

关联与边界

对比 RNN：更强并行与长程依赖。
对比 CNN：全局建模但成本更高。

失败模式

长序列计算成本高。
小数据下易过拟合。

最小伪代码

Input: X
Compute Q,K,V
Apply attention
Stack layers
Return outputs

决策清单

序列长度可接受 O(T^2)
需要全局依赖建模
数据量足够

个人备注

TODO