MLP Guider 假說:Transformer 推理機制的統一幾何框架

從語義流形、Attention 導航、Reasoning 本質到 RL 幾何效果的完整框架,附 Exp A 與 Exp-LL 實驗驗證

一、名詞定義

以下術語在報告中反覆出現,全部從第一原理定義,不預設任何背景知識。


二、核心假說框架

2.1 基礎層:語義流形假說

所有 LLM 都是在學習:在高維空間中,低維語義流形上的操作。具體而言,hidden state 雖然是 2048 維向量,但有意義的語義資訊活在一個低維曲面上。model 的每一層都在這個曲面上移動,試圖走向「正確答案所在的區域」。能力不是靠更大的維度,而是靠更精準地學習流形上的路徑。

2.2 導航層:Attention ≈ MoE Router(抽象等價)

Attention 與 MoE Router 在抽象層面做的是同一件事:用 query 在一個空間裡找最相關的 key,aggregate 對應的 value。差別只在 granularity 與 softness:

Attention
在 token 維度做軟性導航。用當前 token 的 hidden state 作為 query,找其他 token 的相關性(key),加權融合資訊(value)。連續加權,全部 token 都參與。

MoE Router
在 expert 維度做離散導航。用當前 token 的 hidden state 決定激活哪些 expert,讓這些 expert 處理計算。Hard top-k 選取,大多數 expert 不被激活。

2.3 MLP 作為訓練好的 Guider

這是假說的核心,也是實驗驗證的主要對象。Transformer 每層的更新公式為:

$$h_{\text{out}} = h_{\text{in}} + \text{Attention}(h_{\text{in}}) + \text{MLP}(h_{\text{in}})$$

把 MLP 的貢獻單獨拆出來:

$$\Delta h = \text{MLP}(h_{\text{in}})$$

這個 $\Delta h$ 是 MLP 對 residual stream 的「純貢獻向量」,有方向與大小。假說說:$\Delta h$ 的方向在幾何上指向正確答案的 embedding 方向。用 cosine similarity 量測:

$$\text{gap} = \cos\text{sim}(\Delta h,\, v_{\text{correct}}) - \overline{\cos\text{sim}(\Delta h,\, v_{\text{wrong}})}$$

假說預測:$\text{gap} > 0$,且在關鍵層最顯著。

2.4 Reasoning 的本質:Residual Stream 上的 Iterative Refinement

🎯 核心主張:每一個 reasoning token 的生成 = 一次 attention 計算 = hidden state 在 residual stream 上的一次更新 = 往「正確答案方向的 key」再靠近一步。

CoT(Chain-of-Thought)不是讓 model「思考」,而是在 residual stream 上多執行幾步投影操作,每次讓 hidden state 更靠近正確答案所在的 subspace,直到 EOS token 的 logit 超過閾值。這解釋了為什麼「think step by step」或「think longer」能提升準確率——給 residual stream 更多次收斂的機會。

2.5 Critical Token 與 Saddle Point

現有文獻把 critical token 定義為「對最終答案貢獻最大的 token」(用 attention 或 gradient attribution 事後找出),但這是 correlation 而非 causation。本假說提出修正定義:

💡 修正定義:Critical token 是在 saddle point 之後的 $t+1$ 位置的 token——它決定 residual stream 的軌跡進入哪個 attractor basin,進而決定整個推理鏈的收斂方向。

Saddle point 是 residual stream 軌跡上曲率接近零的位置,系統對下一步的選擇在此最敏感。幾何類比:站在馬鞍的最高點,往左下山到一個山谷,往右下山到另一個山谷;critical token 就是決定往左還是往右的那個 token。

這解釋了三個現象:(1)CoT 第一步錯了往往全錯——進了錯的 basin;(2)Self-consistency 有效——多次採樣在 saddle point 附近,majority vote 對抗 local minimum;(3)Prompt 裡加錯誤前提會讓 model 全錯——還沒到 saddle point 就被推進錯的方向。

2.6 RL 的幾何效果:$x(x-3) \to 5x(x-3)$

強化學習對 model 做了什麼?用數學類比說明:

$$\text{RL 前:} f(x) = x(x-3) \quad \text{(零點在 } x=0 \text{ 和 } x=3\text{,能力邊界不變)}$$ $$\text{RL 後:} f(x) = 5x(x-3) \quad \text{(零點不變,gradient 放大了 5 倍)}$$

RL 做的事
放大 loss landscape 的 gradient magnitude。讓 saddle point 附近的軌跡更穩定,critical token 更容易選到正確方向。

RL 不做的事
不改變能力的邊界(零點不變)。Base model 的語義流形已決定潛力上限,RL 無法超越它——只能更有效地走到那裡。

💡 潛力上限假說:在完全相同的 context 下,對 $n+1$ 這個 token 來說,正確答案永遠在 logit list 裡(softmax 機率 $> 0$)。RL 做的只是把正確答案機率從 $p$ 推到 $p' > p$。能力邊界由 base model 的語義流形決定,RL 無法創造新流形,只能鋪路走到已有的地方。RL 與 Best-of-N 在 single-step 層面是等價操作,差別只是 training time vs inference time。

RL 過度訓練的幾何意義:landscape 變得過陡,model 在 saddle point 附近失去探索能力,對應 reward hacking 或 mode collapse 現象。


三、Exp A:MLP Guider 的幾何方向性驗證

3.1 實驗問題

MLP 的輸出向量 $\Delta h$ 是否真的在幾何上指向正確答案的方向?

3.2 實驗設計

使用 Qwen2.5-3B,資料集為 TriviaQA(有明確正確答案的事實問答)。對每個樣本的每一層:

Δh[layer] = MLP_output[layer][-1, :] # 只取最後一個 token 的 hidden state v_correct = lm_head.weight[correct_token_id] v_wrong_k = lm_head.weight[wrong_token_id_k] # 隨機抽 10 個 gap = cos_sim(Δh, v_correct) − mean_k(cos_sim(Δh, v_wrong_k))

核心指標:$\text{gap} > 0$ 且正向樣本比例 $> 50\%$。假說預測在關鍵層兩者都成立且偏離顯著。

3.3 結果

區域層數平均 gap正向比例解讀
早期L0–3$+0.001$≈ 51%接近隨機,MLP 在做特徵提取
中期L4–29$-0.002$≈ 47%輕微負向——MLP 在理解問題,暫時遠離答案
過渡L28–29$-0.010$≈ 35%最低谷——疑似 saddle point 區域
Guider 核心L31–32$\mathbf{+0.033}$80%假說獲得支持 ✓
末端L33–35$-0.019$≈ 37%方向反轉——另一個機制(見 Exp-LL)

3.4 關鍵發現

原本預測「越深的層 gap 越大,最後四層最強」。實際結果是有一個明確的 Guider 峰值區(L31–32),之後反轉。L31–32 的 gap = 0.033 在 cosine similarity 尺度上看起來不大,但 80% 的樣本都呈正向 gap——虛無假說下期望值為 50%,偏離幅度超過 6 個標準差,不是噪音。

中期(L4–29)的輕微負 gap 不是反例:這幾層的 MLP 在做語義理解,需要暫時遠離答案方向,是 model 正常分工的一部分。末端(L33–35)的反轉由 Exp-LL 解釋。


四、Exp-LL:Logit Lens 雙機制分離

4.1 實驗問題

Exp A 發現末端層(L33–35)的 $\Delta h$ 方向反轉了,但 $p_{\text{correct}}$ 應該持續改善才對。這個矛盾怎麼解釋?

4.2 實驗設計(Logit Lens)

在每一層把 hidden state 直接用 lm_head 投影出來,記錄三個指標:

4.3 結果

$p_{\text{correct}}$$\text{logit\_gap}$rank機制
L280.0115.2219,059理解問題階段
L290.0155.8914,756理解問題階段
L300.0296.699,380過渡
L310.1049.825,783方向設定開始
L320.13511.91 ← logit_gap 峰值3,909方向設定完成
L330.14511.311,393分佈收斂開始
L340.1959.74337分佈收斂中
L350.207 ← $p_{\text{correct}}$ 峰值8.67155分佈收斂完成

4.4 核心發現:兩個峰值不在同一層

🔑 關鍵觀察:logit_gap 在 L32 達到峰值(11.91),然後開始下降。$p_{\text{correct}}$ 和 rank 在 L32 之後繼續改善,到 L35 才達到最好。這說明 L32 之後發生的事,不是繼續往正確答案方向推,而是把整體分佈壓縮得更尖銳——消除其他 token 的機率質量,讓正確答案的相對優勢放大。

這分離出兩個不同性質的幾何操作:

操作一:方向設定(Direction Setting)L31–32
$\Delta h$ 強烈指向 $v_{\text{correct}}$,把 residual stream 的主方向轉向正確答案的 subspace。logit_gap 達到峰值 11.91。「我知道答案的方向在哪裡。」

操作二:分佈收斂(Distribution Sharpening)L33–35
$\Delta h$ 方向反轉,但在消除其他候選的機率質量。rank 從 3909 → 155,$p_{\text{correct}}$ 從 0.135 → 0.207。「我要把這個答案說清楚。」

解開 Exp A 的矛盾:Exp A 的末端反轉(L33–35 的 gap 為負)不是假說錯了。L33–35 的 MLP 在做「分佈收斂」而非「方向設定」——它的 $\Delta h$ 不指向正確答案,而是指向「消除其他候選答案的方向」。這在幾何上是反向的,但在結果上讓 $p_{\text{correct}}$ 持續上升。

類比:方向設定像是把望遠鏡對準目標,分佈收斂像是調整焦距讓影像銳利。兩件事都必要,但是完全不同的幾何操作,發生在不同的層。


五、整合:完整的層次分工圖景

把 Exp A 和 Exp-LL 整合,Qwen2.5-3B(共 36 層)的完整分工如下:

角色關鍵指標
L0–3特徵提取:tokenization 層面處理,方向接近隨機gap ≈ +0.001
L4–29語義理解:展開問題意思,暫時遠離答案方向(正常分工)gap ≈ −0.002
L28–29疑似 Saddle Point:gap 最低谷,準備切換任務gap = −0.010,35% 正向
L30過渡層:$p_{\text{correct}}$ 從 0.011 開始跳升至 0.029
L31–32方向設定(Direction Setting):$\Delta h$ 強烈指向 $v_{\text{correct}}$gap = +0.033,80% 正向,logit_gap 峰值 11.91
L33–35分佈收斂(Distribution Sharpening):消除雜訊,壓縮分佈rank 3909 → 155,$p_{\text{correct}}$ 0.135 → 0.207

📌 修正後的假說(Exp A + Exp-LL 整合版):MLP Guider 的功能分兩個階段:Direction Setting(方向設定,L31–32)和 Distribution Sharpening(分佈收斂,L33–35)。前者改變 residual stream 的方向,後者在不改變主方向的情況下壓縮分佈的散度。兩者共同決定最終的 $P(\text{correct token})$。


六、Failure Modes


七、待驗證的開放問題

  1. Exp-SP(Saddle Point 確認):L28–29 的 gap 最低谷是否真的是 saddle point?在 L28–29 的 hidden state 加小噪音,看 final output 的變化是否比其他層更敏感(perturbation sensitivity)。如果是,代表 critical token 確實最可能出現在 L30 之後。
  2. Exp-BYP(Bypass L33–35):如果跳過 L33–35 直接接 lm_head,accuracy 是上升還是下降?預測:accuracy 下降,rank 分佈更散——確認 Distribution Sharpening 不是可有可無的步驟。
  3. Exp B(MoE Router Ablation):需要切換到 MoE model(如 Qwen1.5-MoE-A2.7B)。假說預測:強制關閉 router 選定的 expert,degradation 應遠大於關閉等量隨機 expert。

⚠️ 待形式化的弱點:(1)「潛力上限」目前定義為「base model 語義流形的邊界」,但在實踐上無法直接量測,需要更精確的可操作定義。(2)Saddle point 目前以 entropy proxy(output distribution entropy 最高的位置)作為替代量測,不是嚴格的幾何定義,Exp-SP 的目標之一是找到更好的操作定義。