MLP Guider 假說:Transformer 推理機制的統一幾何框架
從語義流形、Attention 導航、Reasoning 本質到 RL 幾何效果的完整框架,附 Exp A 與 Exp-LL 實驗驗證
一、名詞定義
以下術語在報告中反覆出現,全部從第一原理定義,不預設任何背景知識。
- Transformer:目前主流大型語言模型(GPT、Claude、Qwen 等)的核心架構。由多個「層」堆疊而成,每層包含 Attention 機制與 MLP。
- Residual Stream(殘差流):每個 token 通過所有層時累積的向量表示。每一層的輸出不是「替換」前一層,而是「疊加」上去。
- Hidden State(隱藏狀態):Residual stream 在某一層的當前狀態,是一個高維向量(Qwen2.5-3B 為 2048 維),編碼了 model 目前對該 token 的理解。
- MLP(多層感知機):Transformer 每層的兩個子模組之一(另一個是 Attention)。接收當前 hidden state,輸出一個「更新向量」加回 residual stream。本假說的核心即關於 MLP 在做什麼。
- Attention:讓每個 token 可以「看到」序列中其他 token 資訊,並根據相關性加權融合的機制。
- MoE(Mixture of Experts):稀疏化的 Transformer 架構。把 MLP 拆成多個「專家」,每次只激活少數幾個。Router 負責決定哪些專家被激活。
- lm_head(語言模型頭):Transformer 最後一層之後的線性投影矩陣,把 hidden state 轉換成 logit(詞彙表大小維)。每一行對應一個 token 在 hidden state 空間裡的方向向量。
- Logit:model 對每個 token 的原始分數,尚未轉換成機率。
- Cosine Similarity(餘弦相似度):量測兩向量方向的接近程度,範圍 $-1$ 到 $+1$。$+1$ 代表完全同向,$0$ 代表垂直,$-1$ 代表完全相反。
- 語義流形(Semantic Manifold):有意義的語義資訊實際上分佈在高維空間中一個低維曲面(流形)上。model 的學習可以理解為「學習在這個流形上操作」。
- Attractor Basin(吸引子盆地):在 loss landscape 上,「往下坡走就會到達的低點」。正確答案是一個 attractor,錯誤答案也可以是另一個 attractor。
- Saddle Point(鞍點):在某方向是極大值、另一方向是極小值的點。在本假說中,指 residual stream 軌跡上曲率接近零、對下一步最敏感的位置。
- Logit Lens:把每一層的 hidden state 直接用 lm_head 投影成 logit,追蹤答案在哪一層形成的分析技術。
- RL(強化學習):給 model 的輸出打分,讓 model 調整參數提高分數的訓練方法。
二、核心假說框架
2.1 基礎層:語義流形假說
所有 LLM 都是在學習:在高維空間中,低維語義流形上的操作。具體而言,hidden state 雖然是 2048 維向量,但有意義的語義資訊活在一個低維曲面上。model 的每一層都在這個曲面上移動,試圖走向「正確答案所在的區域」。能力不是靠更大的維度,而是靠更精準地學習流形上的路徑。
2.2 導航層:Attention ≈ MoE Router(抽象等價)
Attention 與 MoE Router 在抽象層面做的是同一件事:用 query 在一個空間裡找最相關的 key,aggregate 對應的 value。差別只在 granularity 與 softness:
Attention
在 token 維度做軟性導航。用當前 token 的 hidden state 作為 query,找其他 token 的相關性(key),加權融合資訊(value)。連續加權,全部 token 都參與。
MoE Router
在 expert 維度做離散導航。用當前 token 的 hidden state 決定激活哪些 expert,讓這些 expert 處理計算。Hard top-k 選取,大多數 expert 不被激活。
2.3 MLP 作為訓練好的 Guider
這是假說的核心,也是實驗驗證的主要對象。Transformer 每層的更新公式為:
$$h_{\text{out}} = h_{\text{in}} + \text{Attention}(h_{\text{in}}) + \text{MLP}(h_{\text{in}})$$把 MLP 的貢獻單獨拆出來:
$$\Delta h = \text{MLP}(h_{\text{in}})$$這個 $\Delta h$ 是 MLP 對 residual stream 的「純貢獻向量」,有方向與大小。假說說:$\Delta h$ 的方向在幾何上指向正確答案的 embedding 方向。用 cosine similarity 量測:
$$\text{gap} = \cos\text{sim}(\Delta h,\, v_{\text{correct}}) - \overline{\cos\text{sim}(\Delta h,\, v_{\text{wrong}})}$$假說預測:$\text{gap} > 0$,且在關鍵層最顯著。
2.4 Reasoning 的本質:Residual Stream 上的 Iterative Refinement
🎯 核心主張:每一個 reasoning token 的生成 = 一次 attention 計算 = hidden state 在 residual stream 上的一次更新 = 往「正確答案方向的 key」再靠近一步。
CoT(Chain-of-Thought)不是讓 model「思考」,而是在 residual stream 上多執行幾步投影操作,每次讓 hidden state 更靠近正確答案所在的 subspace,直到 EOS token 的 logit 超過閾值。這解釋了為什麼「think step by step」或「think longer」能提升準確率——給 residual stream 更多次收斂的機會。
2.5 Critical Token 與 Saddle Point
現有文獻把 critical token 定義為「對最終答案貢獻最大的 token」(用 attention 或 gradient attribution 事後找出),但這是 correlation 而非 causation。本假說提出修正定義:
💡 修正定義:Critical token 是在 saddle point 之後的 $t+1$ 位置的 token——它決定 residual stream 的軌跡進入哪個 attractor basin,進而決定整個推理鏈的收斂方向。
Saddle point 是 residual stream 軌跡上曲率接近零的位置,系統對下一步的選擇在此最敏感。幾何類比:站在馬鞍的最高點,往左下山到一個山谷,往右下山到另一個山谷;critical token 就是決定往左還是往右的那個 token。
這解釋了三個現象:(1)CoT 第一步錯了往往全錯——進了錯的 basin;(2)Self-consistency 有效——多次採樣在 saddle point 附近,majority vote 對抗 local minimum;(3)Prompt 裡加錯誤前提會讓 model 全錯——還沒到 saddle point 就被推進錯的方向。
2.6 RL 的幾何效果:$x(x-3) \to 5x(x-3)$
強化學習對 model 做了什麼?用數學類比說明:
$$\text{RL 前:} f(x) = x(x-3) \quad \text{(零點在 } x=0 \text{ 和 } x=3\text{,能力邊界不變)}$$ $$\text{RL 後:} f(x) = 5x(x-3) \quad \text{(零點不變,gradient 放大了 5 倍)}$$RL 做的事
放大 loss landscape 的 gradient magnitude。讓 saddle point 附近的軌跡更穩定,critical token 更容易選到正確方向。
RL 不做的事
不改變能力的邊界(零點不變)。Base model 的語義流形已決定潛力上限,RL 無法超越它——只能更有效地走到那裡。
💡 潛力上限假說:在完全相同的 context 下,對 $n+1$ 這個 token 來說,正確答案永遠在 logit list 裡(softmax 機率 $> 0$)。RL 做的只是把正確答案機率從 $p$ 推到 $p' > p$。能力邊界由 base model 的語義流形決定,RL 無法創造新流形,只能鋪路走到已有的地方。RL 與 Best-of-N 在 single-step 層面是等價操作,差別只是 training time vs inference time。
RL 過度訓練的幾何意義:landscape 變得過陡,model 在 saddle point 附近失去探索能力,對應 reward hacking 或 mode collapse 現象。
三、Exp A:MLP Guider 的幾何方向性驗證
3.1 實驗問題
MLP 的輸出向量 $\Delta h$ 是否真的在幾何上指向正確答案的方向?
3.2 實驗設計
使用 Qwen2.5-3B,資料集為 TriviaQA(有明確正確答案的事實問答)。對每個樣本的每一層:
Δh[layer] = MLP_output[layer][-1, :] # 只取最後一個 token 的 hidden state
v_correct = lm_head.weight[correct_token_id]
v_wrong_k = lm_head.weight[wrong_token_id_k] # 隨機抽 10 個
gap = cos_sim(Δh, v_correct) − mean_k(cos_sim(Δh, v_wrong_k))核心指標:$\text{gap} > 0$ 且正向樣本比例 $> 50\%$。假說預測在關鍵層兩者都成立且偏離顯著。
3.3 結果
| 區域 | 層數 | 平均 gap | 正向比例 | 解讀 |
|---|---|---|---|---|
| 早期 | L0–3 | $+0.001$ | ≈ 51% | 接近隨機,MLP 在做特徵提取 |
| 中期 | L4–29 | $-0.002$ | ≈ 47% | 輕微負向——MLP 在理解問題,暫時遠離答案 |
| 過渡 | L28–29 | $-0.010$ | ≈ 35% | 最低谷——疑似 saddle point 區域 |
| Guider 核心 | L31–32 | $\mathbf{+0.033}$ | 80% | 假說獲得支持 ✓ |
| 末端 | L33–35 | $-0.019$ | ≈ 37% | 方向反轉——另一個機制(見 Exp-LL) |
3.4 關鍵發現
原本預測「越深的層 gap 越大,最後四層最強」。實際結果是有一個明確的 Guider 峰值區(L31–32),之後反轉。L31–32 的 gap = 0.033 在 cosine similarity 尺度上看起來不大,但 80% 的樣本都呈正向 gap——虛無假說下期望值為 50%,偏離幅度超過 6 個標準差,不是噪音。
中期(L4–29)的輕微負 gap 不是反例:這幾層的 MLP 在做語義理解,需要暫時遠離答案方向,是 model 正常分工的一部分。末端(L33–35)的反轉由 Exp-LL 解釋。
四、Exp-LL:Logit Lens 雙機制分離
4.1 實驗問題
Exp A 發現末端層(L33–35)的 $\Delta h$ 方向反轉了,但 $p_{\text{correct}}$ 應該持續改善才對。這個矛盾怎麼解釋?
4.2 實驗設計(Logit Lens)
在每一層把 hidden state 直接用 lm_head 投影出來,記錄三個指標:
- $p_{\text{correct}}$:正確答案 token 的機率值(softmax 後)。如果在這層就停下來輸出,選到正確答案的機率。
- $\text{logit\_gap}$:正確答案的 logit 減掉所有 token 的平均 logit。代表正確答案在 logit 空間裡有多突出。
- $\text{rank}$:正確答案 token 按機率排第幾名。rank = 1 最好,數字越小越好。
4.3 結果
| 層 | $p_{\text{correct}}$ | $\text{logit\_gap}$ | rank | 機制 |
|---|---|---|---|---|
| L28 | 0.011 | 5.22 | 19,059 | 理解問題階段 |
| L29 | 0.015 | 5.89 | 14,756 | 理解問題階段 |
| L30 | 0.029 | 6.69 | 9,380 | 過渡 |
| L31 | 0.104 | 9.82 | 5,783 | 方向設定開始 |
| L32 | 0.135 | 11.91 ← logit_gap 峰值 | 3,909 | 方向設定完成 |
| L33 | 0.145 | 11.31 | 1,393 | 分佈收斂開始 |
| L34 | 0.195 | 9.74 | 337 | 分佈收斂中 |
| L35 | 0.207 ← $p_{\text{correct}}$ 峰值 | 8.67 | 155 | 分佈收斂完成 |
4.4 核心發現:兩個峰值不在同一層
🔑 關鍵觀察:logit_gap 在 L32 達到峰值(11.91),然後開始下降。$p_{\text{correct}}$ 和 rank 在 L32 之後繼續改善,到 L35 才達到最好。這說明 L32 之後發生的事,不是繼續往正確答案方向推,而是把整體分佈壓縮得更尖銳——消除其他 token 的機率質量,讓正確答案的相對優勢放大。
這分離出兩個不同性質的幾何操作:
操作一:方向設定(Direction Setting)L31–32
$\Delta h$ 強烈指向 $v_{\text{correct}}$,把 residual stream 的主方向轉向正確答案的 subspace。logit_gap 達到峰值 11.91。「我知道答案的方向在哪裡。」
操作二:分佈收斂(Distribution Sharpening)L33–35
$\Delta h$ 方向反轉,但在消除其他候選的機率質量。rank 從 3909 → 155,$p_{\text{correct}}$ 從 0.135 → 0.207。「我要把這個答案說清楚。」
✅ 解開 Exp A 的矛盾:Exp A 的末端反轉(L33–35 的 gap 為負)不是假說錯了。L33–35 的 MLP 在做「分佈收斂」而非「方向設定」——它的 $\Delta h$ 不指向正確答案,而是指向「消除其他候選答案的方向」。這在幾何上是反向的,但在結果上讓 $p_{\text{correct}}$ 持續上升。
類比:方向設定像是把望遠鏡對準目標,分佈收斂像是調整焦距讓影像銳利。兩件事都必要,但是完全不同的幾何操作,發生在不同的層。
五、整合:完整的層次分工圖景
把 Exp A 和 Exp-LL 整合,Qwen2.5-3B(共 36 層)的完整分工如下:
| 層 | 角色 | 關鍵指標 |
|---|---|---|
| L0–3 | 特徵提取:tokenization 層面處理,方向接近隨機 | gap ≈ +0.001 |
| L4–29 | 語義理解:展開問題意思,暫時遠離答案方向(正常分工) | gap ≈ −0.002 |
| L28–29 | 疑似 Saddle Point:gap 最低谷,準備切換任務 | gap = −0.010,35% 正向 |
| L30 | 過渡層:$p_{\text{correct}}$ 從 0.011 開始跳升至 0.029 | — |
| L31–32 | 方向設定(Direction Setting):$\Delta h$ 強烈指向 $v_{\text{correct}}$ | gap = +0.033,80% 正向,logit_gap 峰值 11.91 |
| L33–35 | 分佈收斂(Distribution Sharpening):消除雜訊,壓縮分佈 | rank 3909 → 155,$p_{\text{correct}}$ 0.135 → 0.207 |
📌 修正後的假說(Exp A + Exp-LL 整合版):MLP Guider 的功能分兩個階段:Direction Setting(方向設定,L31–32)和 Distribution Sharpening(分佈收斂,L33–35)。前者改變 residual stream 的方向,後者在不改變主方向的情況下壓縮分佈的散度。兩者共同決定最終的 $P(\text{correct token})$。
六、Failure Modes
- Hallucination(幻覺):正確答案的 key 不在 context 裡,residual stream 無法找到正確的 attractor basin,收斂到「看起來穩定但語義上是錯的」local minimum。不是沒有收斂,而是收斂到了錯的地方。
- CoT 自信說錯:Critical token 在 saddle point 之後選錯了方向,進入錯的 attractor basin。之後所有 reasoning token 都在那個錯的 basin 裡繼續收斂,整條推理鏈加強一個錯誤方向,model 還表現得很有信心。
- Over-RL(過度強化學習):RL 把 landscape 放大得太多($x(x-3) \to 1000x(x-3)$),saddle point 附近過於陡峭,model 失去探索能力,永遠走同一條路。對應 reward hacking、mode collapse,在訓練分佈外的問題上完全失敗。
七、待驗證的開放問題
- Exp-SP(Saddle Point 確認):L28–29 的 gap 最低谷是否真的是 saddle point?在 L28–29 的 hidden state 加小噪音,看 final output 的變化是否比其他層更敏感(perturbation sensitivity)。如果是,代表 critical token 確實最可能出現在 L30 之後。
- Exp-BYP(Bypass L33–35):如果跳過 L33–35 直接接 lm_head,accuracy 是上升還是下降?預測:accuracy 下降,rank 分佈更散——確認 Distribution Sharpening 不是可有可無的步驟。
- Exp B(MoE Router Ablation):需要切換到 MoE model(如 Qwen1.5-MoE-A2.7B)。假說預測:強制關閉 router 選定的 expert,degradation 應遠大於關閉等量隨機 expert。
⚠️ 待形式化的弱點:(1)「潛力上限」目前定義為「base model 語義流形的邊界」,但在實踐上無法直接量測,需要更精確的可操作定義。(2)Saddle point 目前以 entropy proxy(output distribution entropy 最高的位置)作為替代量測,不是嚴格的幾何定義,Exp-SP 的目標之一是找到更好的操作定義。