摘要 :本文质疑”softmax 注意力的强性能源于它在输入上产生概率分布”这一观点,转而主张 softmax 的有效性在于它对注意力矩阵 Frobenius 范数的隐式正则,从而稳定训练。据此探索替代激活——特别是多项式——以达到类似的正则效果。理论分析表明某些多项式可作为 softmax 的有效替代,尽管违反了 softmax 通常的正性、归一化、稀疏性,仍能在多种 transformer 应用上取得强性能。大量实验支持这些发现,为注意力机制提供了新视角。
1. Intro
Softmax self-attention 满足三条性质:
- 注意力权重非负,
- 行归一化使权重和为 1(可解释为概率),
- 稀疏性,促使聚焦少数相关 token。
这些性质被普遍认为是有效注意力建模与可解释性的关键,但这一看法主要建立在经验之上、缺乏理论支撑。尽管有人研究过替代激活,softmax 仍占主导,主要因其经验性能与可解释性。
本文提出问题:
Do attention mechanisms in transformers require non-negativity, normalization, and sparsity for effective performance?
并给出新的视角:softmax 的有效性不内禀地源于这三条性质,而源于训练中对注意力矩阵 Frobenius 范数的隐式正则。据此,简单的多项式激活(违反三条性质)仍能通过诱导类似的正则效果,达到与 softmax 相当或更优的性能。这给出了一个与传统概率视角根本不同的解释。
Contributions:
- 理论分析:softmax attention 隐式正则注意力矩阵的 Frobenius 范数,挑战”非负/归一化/稀疏是其成功主因”的假设。
- 提出多项式激活作为替代,证明其能在不遵守 softmax 约束的情况下诱导类似正则效果,在图像分类、目标检测、实例分割、文本分类、物理建模上取得有竞争力的性能。
ReLU,ReLU + N1,softmax的泰勒展开等。作者认为本文的独特之处在于:建立了注意力矩阵 Frobenius 范数与输入序列长度之间的明确理论联系 ,并据此设计了打破三条 softmax 性质的多项式激活。
3. Preliminaries and Notation
定义Transformer block:
T:RN×D→RN×D,T(x)=F(A(x)+x)
其中F是带残差的 FFN,A是 attention head。
Attention head:
q=QX, k=KX, v=VX,Q,K∈RD×d,V∈RD×M
定义 A(X)=ϕ(S(q,k))v,S是相似度变换,ϕ是激活。最常用 S(q,k)=qk⊤self-attention),最常用 ϕ 是 softmax,于是
A(X)=softmax(dqk⊤)v=softmax(dXQK⊤X⊤)XV.
Softmax梯度:对A∈RN×N,定义梯度线性映射 ∇softmax(A):=Jsoftmax(A)⊤。约定 Frobenius 范数记 ∥⋅∥F。
4. Theoretical Analysis
Frobenius的定义:
对A=(aij)∈Rm×n,定义
∣∣A∣∣F=i=1∑mj=1∑naij2
且有∣∣A∣∣F2=tr(A⊤A)=tr(AA⊤)=∑kσk2。
Frobenius 范数等于奇异值的L2范数,因此有∣∣A∣∣2≤∣∣A∣∣F≤rank(A)∣∣A∣∣2。且有:
- ⟨A,B⟩F=tr(A⊤B)
- ∣∣UAV∣∣F=∣∣A∣∣F
- ∣∣AB∣∣F≤∣∣A∣∣F∣∣B∣∣F,∣∣AB∣∣F≤∣∣A∣∣2∣∣B∣∣F
4.1. Implicit regulatization of Softmax
本节证明 softmax 对 self-attention 矩阵 Frobenius 范数的控制_随 token 长度次线性增长_,并且 softmax 关于该矩阵的梯度也有类似规律性。前人从 Lipschitz 常数角度分析过 softmax 的规律性,本文的新意是直接把 Frobenius 范数规律性与 token 长度挂钩,从而给出”注意力激活该如何随 token 长度缩放才能在(基于梯度下降的)训练中保持稳定”的洞见。
Theorem 4.1:
∥softmax(A)∥F≤N,∥∇softmax(A)∥F≤2N.
证明:(1)∥softmax(A)∥F≤N
记softmax(A)第(k,l)元为Fkl=∑jeakjeakl。每一行k是概率向量Fkl≥0,∑lFkl=1。按定义,有:
∥softmax(A)∥F2=k=1∑Nl=1∑NFkl2=k=1∑N(l=1∑NFkl2).
由于“平方和小于等于和的平方”可展开,展开后交叉项∑l=l′xlxl′≥0,
l∑Fkl2≤(l∑Fkl)2=12=1.
N行各贡献≤1,故∥softmax(A)∥F2≤N,开方得N。
注意到这个界的松紧由稀疏度决定,行向量越接近one-hot的时候,∑lFkl2→1,取上界;越均匀,Fkl2→1/N,整体∣∣⋅∣∣F→1,因此实际范围应当是[1,N]。1
(2)∥∇softmax(A)∥F≤2N.
softmax 逐行独立作用,输出Fkl只依赖输入第k行,故整张 Jacobian是按行分块对角的,共N个块,每块是单行 softmax 的 Jacobian。又因∇softmax=J⊤ 而∥J⊤∥F=∥J∥F,只需算 Jacobian。单行(概率p=(p1,…,pN))的 Jacobian 是
J(row)=diag(p)−pp⊤,Jjl(row)=pj(δjl−pl).
于是
∥∇softmax(A)∥F2=rows∑diag(p)−pp⊤F2.
把单个输出Fij关于本行输入的梯度记为∇Fij,分量(∇Fij)l=pj(δjl−pl),然后用 ∥v∥22≤∥v∥12放成L1:
∥∇Fij∥2≤(l∑∣(∇Fij)l∣)2=pj2(∣1−pj∣+l=j∑pl)2
因行和为 1,∣1−pj∣=1−pj 且∑l=jpl=1−pj,两者相加等于2(1−pj)代入并再用(1−pj)2≤(1−pj):
∥∇Fij∥2≤4pj2(1−pj)2≤4pj2(1−pj).
对j求和,∑j4pj2(1−pj)≤4∑jpj2≤4。故每行≤4,N行≤4N,开方2N。
不过实际上注意到,
diag(p)−pp⊤F2=对角j∑(pj−pj2)2+非对角j=l∑(pjpl)2.
令S=∑jpj2,展开整理(对角项给∑pj2−2∑pj3+∑pj4,非对角项给S2−∑pj4):
diag(p)−pp⊤F2=S−2j∑pj3+S2.
由柯西不等式,(∑pj2)2=(∑pj1/2⋅pj3/2)2≤(∑pj)(∑pj3)=∑pj3,即∑pj3≥S2。代入:
S−2∑pj3+S2≤S−2S2+S2=S(1−S)≤41,
最大值41在S=21取到(例如某行是两个21的均匀分布;N=2,p=(21,21)时块 =[1/4−1/4−1/41/4],∥⋅∥F2=4⋅161=41,精确取等)。于是每行≤41, N行≤4N,
∥∇softmax(A)∥F≤21N.
所以论文的常数 2 比可达的最优常数21松了 4 倍。
4.2. Polynomial activations for self-attention
既然 softmax 隐式正则了 Frobenius 范数,现在证明对特定多项式激活做缩放,可以在期望意义上达到类似效果。
Theorem 4.2.
设X∈RN×D,Q,K∈RD×d为 i.i.d. 高斯,X∼N(0,σx),Q,K∼N(0,σt)2。则对p≥1,有:
E[(dXQKTXT)pF]≤O(N).
证明:当p=1时,c11=∑i=1Da1ibi1,则有
E[c112]=E[i,j∑a1ibi1a1jbj1]=i=ji∑E[a1i2]E[bi12]+i=ji=j∑E[a1i]E[bi1]E[a1j]E[bj1].
对角项等于σ12σ22,非对角项因a,b均值零、互相独立而为0,故
E[c112]=Dσ12σ22.
每个元同理,共N2个,E∥C∥F2=N2Dσ12σ22,琴生不等式得
E∥C∥F≤NDσ1σ2=O(N)
当p>1时,要算E[c112]=E[s2p],s=∑i=1DXi,其中Xi:=a1ibi1, i.i.d. 均值零、\mathrm{Var}(X_i)=\sigma_1^2\sigma_2^2$$、且 \mathbb E[X_i^{\text{odd}}]=0(奇次矩=\mathbb E[a^{\text{odd}}]\mathbb E[b^{\text{odd}}]=0$)。
做多项式展开:
s2p=(m1,…,mD)∑mi=2p∑m1!⋯mD!(2p)!i∏Ximi
取期望,注意到含奇数mi的项因为E[Xiodd]=0消去了。按D的阶看,主导项是2p拆成p 对mi=2 落在p个不同下标上(计数(pD)=O(Dp),这是最多不同因子、计数最高的情形;一个mi=4加(p−2)对只用p−1个下标→O(Dp−1),低阶)。主导项:
E[s2p]≈(pD)⋅2p(2p)!⋅(σ12σ22)p
其中2p(2p)!是把p个mi=2的多项式系数(2!=2,p 个)合进去。化简(pD)2p(2p)!=(D−p)!D!⋅p!2p(2p)!,再用 (2p)!!=2pp! 与 (2p)!=(2p)!!(2p−1)!! 得 p!2p(2p)!=(2p)!!(2p)!=(2p−1)!!。注意到(D−p)!D!=D(D−1)⋯(D−p+1)≤Dp于是
E[c112]≈(D−p)!D!(2p−1)!!σ12pσ22p≤Dp(2p−1)!!σ12pσ22p
这是N无关的常数。N2个元求和:E∥C∥F2≤N2Dp(2p−1)!!σ12pσ22p,琴生得
E∥C∥F≤NDp(2p−1)!!σ1pσ2p=O(N).
注意到有个关于p的常数(2p−1)!!Dpσ2p随着p指数增长,跟正文里面提到的p太大了就无法训练能相互印证。
Theorem 4.3.
EN1(dXQKTXT)pF≤O(N).
显然的缩放,乘1/N即O(N)。
Theorem 4.4
记Mij=xi⊤QK⊤xj(xi为X第i行,D-维),Q,K∈RD×d,x∼N(0,σx2)、K元方差记 σw2。要界E∂Q∂M∘pF(M∘p逐元素幂)。整张梯度是 4-张量(输出 N×N,参数D×d),其 Frobenius 范数平方 =∑i,j∂Q∂MijpF2。
p=1时有:
Mij=k,l∑xikQkl(K⊤xj)l,(K⊤xj)l=m∑Kmlxjm,
所以
∂Qkl∂Mij=xikm∑xjmKml⟺∂Q∂Mij=xixj⊤K∈RD×d.
于是
∂Q∂MijF2=∑k=1Dl=1∑dxik2(m∑xjmKml)2.
展开内平方:
(m∑xjmKml)2=m∑xjm2Kml2+m=n∑xjmxjnKmlKnl
取期望,交叉项含 E[KmlKnl]=0(m=n)而消失,剩
E∂Q∂MijF2=∑k,l,mE[xik2xjm2]σw2.
对全部i,j求和:
E∂Q∂MF2=σw2∑i,j,k,l,mE[xik2xjm2].
- i=j且k=m:E[xik4]=3σx4,共N⋅D⋅d个。3
- 其余:E[xik2xjm2]=σx4,N2D2d−NDd个。
合计
E∂Q∂MF2=σx4σw2d(N2D2+2ND)≈N2D2dσx4σw2.
琴生得E∥∂M/∂Q∥F≤NDdσx2σw=O(N)。
再考虑p>1的情况,链式法则:
∂Q∂Mijp=pMijp−1∂Q∂Mij=pMijp−1xixj⊤K,
∂Q∂MijpF2=p2Mij2p−2k,l∑(xikm∑xjmKml)2.
记 zij:=Mij=∑k,mxikxjmakm,akm=∑lQklKml=(QK⊤)km_。_则要算
E∂Q∂M∘pF2=p2∑i,jE[zij2p−2k,l∑(xik∑mxjmKml)2].
用与 Thm 4.2 同样的”奇次矩消、偶次配对取D的 leading order”机制,论文给出主导项:
E∂Q∂M∘pF2≈N2D2pdp(2p−3)!!σx4pσw4p−2.
这里 (2p−3)!! 是 z2p−2 因子配对的高斯计数(与 2p 次矩出 (2p−1)!!同理,(2p−2) 阶出(2p−3)!!)。σx4pσw4p−2 是数 x 与 K 因子总幂次的结果(z 携带 x2⋅(QK),2p−2 次再乘 ∥⋅∥2 的 x2x2K2)。
关键是 N 依赖恰为 N2,与 p 无关——它纯粹来自外层 ∑i,j 的 N2 个输出位置,每个位置的期望梯度能量 N无关。
缩放得 E∥∂M∘p/∂Q∥F≤O(N),缩放 1/N 得 O(N)。
理论推完发现这文章没中,ICLR2026得分2222,一下子就不想看下去了。感觉实验和理论都不是很好。