MLP Guider 假說：Transformer 推理機制的統一幾何框架

從語義流形、Attention 導航、Reasoning 本質到 RL 幾何效果的完整框架，附 Exp A 與 Exp-LL 實驗驗證

一、名詞定義

以下術語在報告中反覆出現，全部從第一原理定義，不預設任何背景知識。

Transformer：目前主流大型語言模型（GPT、Claude、Qwen 等）的核心架構。由多個「層」堆疊而成，每層包含 Attention 機制與 MLP。
Residual Stream（殘差流）：每個 token 通過所有層時累積的向量表示。每一層的輸出不是「替換」前一層，而是「疊加」上去。
Hidden State（隱藏狀態）：Residual stream 在某一層的當前狀態，是一個高維向量（Qwen2.5-3B 為 2048 維），編碼了 model 目前對該 token 的理解。
MLP（多層感知機）：Transformer 每層的兩個子模組之一（另一個是 Attention）。接收當前 hidden state，輸出一個「更新向量」加回 residual stream。本假說的核心即關於 MLP 在做什麼。
Attention：讓每個 token 可以「看到」序列中其他 token 資訊，並根據相關性加權融合的機制。
MoE（Mixture of Experts）：稀疏化的 Transformer 架構。把 MLP 拆成多個「專家」，每次只激活少數幾個。Router 負責決定哪些專家被激活。
lm_head（語言模型頭）：Transformer 最後一層之後的線性投影矩陣，把 hidden state 轉換成 logit（詞彙表大小維）。每一行對應一個 token 在 hidden state 空間裡的方向向量。
Logit：model 對每個 token 的原始分數，尚未轉換成機率。
Cosine Similarity（餘弦相似度）：量測兩向量方向的接近程度，範圍 $-1$ 到 $+1$。$+1$ 代表完全同向，$0$ 代表垂直，$-1$ 代表完全相反。
語義流形（Semantic Manifold）：有意義的語義資訊實際上分佈在高維空間中一個低維曲面（流形）上。model 的學習可以理解為「學習在這個流形上操作」。
Attractor Basin（吸引子盆地）：在 loss landscape 上，「往下坡走就會到達的低點」。正確答案是一個 attractor，錯誤答案也可以是另一個 attractor。
Saddle Point（鞍點）：在某方向是極大值、另一方向是極小值的點。在本假說中，指 residual stream 軌跡上曲率接近零、對下一步最敏感的位置。
Logit Lens：把每一層的 hidden state 直接用 lm_head 投影成 logit，追蹤答案在哪一層形成的分析技術。
RL（強化學習）：給 model 的輸出打分，讓 model 調整參數提高分數的訓練方法。

二、核心假說框架

2.1 基礎層：語義流形假說

所有 LLM 都是在學習：在高維空間中，低維語義流形上的操作。具體而言，hidden state 雖然是 2048 維向量，但有意義的語義資訊活在一個低維曲面上。model 的每一層都在這個曲面上移動，試圖走向「正確答案所在的區域」。能力不是靠更大的維度，而是靠更精準地學習流形上的路徑。

2.2 導航層：Attention ≈ MoE Router（抽象等價）

Attention 與 MoE Router 在抽象層面做的是同一件事：用 query 在一個空間裡找最相關的 key，aggregate 對應的 value。差別只在 granularity 與 softness：

Attention
在 token 維度做軟性導航。用當前 token 的 hidden state 作為 query，找其他 token 的相關性（key），加權融合資訊（value）。連續加權，全部 token 都參與。

MoE Router
在 expert 維度做離散導航。用當前 token 的 hidden state 決定激活哪些 expert，讓這些 expert 處理計算。Hard top-k 選取，大多數 expert 不被激活。

2.3 MLP 作為訓練好的 Guider

這是假說的核心，也是實驗驗證的主要對象。Transformer 每層的更新公式為：

$$h_{\text{out}} = h_{\text{in}} + \text{Attention}(h_{\text{in}}) + \text{MLP}(h_{\text{in}})$$

把 MLP 的貢獻單獨拆出來：

$$\Delta h = \text{MLP}(h_{\text{in}})$$

這個 $\Delta h$ 是 MLP 對 residual stream 的「純貢獻向量」，有方向與大小。假說說：$\Delta h$ 的方向在幾何上指向正確答案的 embedding 方向。用 cosine similarity 量測：

$$\text{gap} = \cos\text{sim}(\Delta h,\, v_{\text{correct}}) - \overline{\cos\text{sim}(\Delta h,\, v_{\text{wrong}})}$$

假說預測：$\text{gap} > 0$，且在關鍵層最顯著。

2.4 Reasoning 的本質：Residual Stream 上的 Iterative Refinement

🎯 核心主張：每一個 reasoning token 的生成 = 一次 attention 計算 = hidden state 在 residual stream 上的一次更新 = 往「正確答案方向的 key」再靠近一步。

CoT（Chain-of-Thought）不是讓 model「思考」，而是在 residual stream 上多執行幾步投影操作，每次讓 hidden state 更靠近正確答案所在的 subspace，直到 EOS token 的 logit 超過閾值。這解釋了為什麼「think step by step」或「think longer」能提升準確率——給 residual stream 更多次收斂的機會。

2.5 Critical Token 與 Saddle Point

現有文獻把 critical token 定義為「對最終答案貢獻最大的 token」（用 attention 或 gradient attribution 事後找出），但這是 correlation 而非 causation。本假說提出修正定義：

💡 修正定義：Critical token 是在 saddle point 之後的 $t+1$ 位置的 token——它決定 residual stream 的軌跡進入哪個 attractor basin，進而決定整個推理鏈的收斂方向。

Saddle point 是 residual stream 軌跡上曲率接近零的位置，系統對下一步的選擇在此最敏感。幾何類比：站在馬鞍的最高點，往左下山到一個山谷，往右下山到另一個山谷；critical token 就是決定往左還是往右的那個 token。

這解釋了三個現象：（1）CoT 第一步錯了往往全錯——進了錯的 basin；（2）Self-consistency 有效——多次採樣在 saddle point 附近，majority vote 對抗 local minimum；（3）Prompt 裡加錯誤前提會讓 model 全錯——還沒到 saddle point 就被推進錯的方向。

2.6 RL 的幾何效果：$x(x-3) \to 5x(x-3)$

強化學習對 model 做了什麼？用數學類比說明：

$$\text{RL 前：} f(x) = x(x-3) \quad \text{（零點在 } x=0 \text{ 和 } x=3\text{，能力邊界不變）}$$ $$\text{RL 後：} f(x) = 5x(x-3) \quad \text{（零點不變，gradient 放大了 5 倍）}$$

RL 做的事
放大 loss landscape 的 gradient magnitude。讓 saddle point 附近的軌跡更穩定，critical token 更容易選到正確方向。

RL 不做的事
不改變能力的邊界（零點不變）。Base model 的語義流形已決定潛力上限，RL 無法超越它——只能更有效地走到那裡。

💡 潛力上限假說：在完全相同的 context 下，對 $n+1$ 這個 token 來說，正確答案永遠在 logit list 裡（softmax 機率 $> 0$）。RL 做的只是把正確答案機率從 $p$ 推到 $p' > p$。能力邊界由 base model 的語義流形決定，RL 無法創造新流形，只能鋪路走到已有的地方。RL 與 Best-of-N 在 single-step 層面是等價操作，差別只是 training time vs inference time。

RL 過度訓練的幾何意義：landscape 變得過陡，model 在 saddle point 附近失去探索能力，對應 reward hacking 或 mode collapse 現象。

三、Exp A：MLP Guider 的幾何方向性驗證

3.1 實驗問題

MLP 的輸出向量 $\Delta h$ 是否真的在幾何上指向正確答案的方向？

3.2 實驗設計

使用 Qwen2.5-3B，資料集為 TriviaQA（有明確正確答案的事實問答）。對每個樣本的每一層：

Δh[layer] = MLP_output[layer][-1, :]   # 只取最後一個 token 的 hidden state
v_correct = lm_head.weight[correct_token_id]
v_wrong_k = lm_head.weight[wrong_token_id_k]  # 隨機抽 10 個
gap = cos_sim(Δh, v_correct) − mean_k(cos_sim(Δh, v_wrong_k))

核心指標：$\text{gap} > 0$ 且正向樣本比例 $> 50\%$。假說預測在關鍵層兩者都成立且偏離顯著。

3.3 結果

區域	層數	平均 gap	正向比例	解讀
早期	L0–3	$+0.001$	≈ 51%	接近隨機，MLP 在做特徵提取
中期	L4–29	$-0.002$	≈ 47%	輕微負向——MLP 在理解問題，暫時遠離答案
過渡	L28–29	$-0.010$	≈ 35%	最低谷——疑似 saddle point 區域
Guider 核心	L31–32	$\mathbf{+0.033}$	80%	假說獲得支持 ✓
末端	L33–35	$-0.019$	≈ 37%	方向反轉——另一個機制（見 Exp-LL）

3.4 關鍵發現

原本預測「越深的層 gap 越大，最後四層最強」。實際結果是有一個明確的 Guider 峰值區（L31–32），之後反轉。L31–32 的 gap = 0.033 在 cosine similarity 尺度上看起來不大，但 80% 的樣本都呈正向 gap——虛無假說下期望值為 50%，偏離幅度超過 6 個標準差，不是噪音。

中期（L4–29）的輕微負 gap 不是反例：這幾層的 MLP 在做語義理解，需要暫時遠離答案方向，是 model 正常分工的一部分。末端（L33–35）的反轉由 Exp-LL 解釋。

四、Exp-LL：Logit Lens 雙機制分離

4.1 實驗問題

Exp A 發現末端層（L33–35）的 $\Delta h$ 方向反轉了，但 $p_{\text{correct}}$ 應該持續改善才對。這個矛盾怎麼解釋？

4.2 實驗設計（Logit Lens）

在每一層把 hidden state 直接用 lm_head 投影出來，記錄三個指標：

$p_{\text{correct}}$：正確答案 token 的機率值（softmax 後）。如果在這層就停下來輸出，選到正確答案的機率。
$\text{logit\_gap}$：正確答案的 logit 減掉所有 token 的平均 logit。代表正確答案在 logit 空間裡有多突出。
$\text{rank}$：正確答案 token 按機率排第幾名。rank = 1 最好，數字越小越好。

4.3 結果

層	$p_{\text{correct}}$	$\text{logit\_gap}$	rank	機制
L28	0.011	5.22	19,059	理解問題階段
L29	0.015	5.89	14,756	理解問題階段
L30	0.029	6.69	9,380	過渡
L31	0.104	9.82	5,783	方向設定開始
L32	0.135	11.91 ← logit_gap 峰值	3,909	方向設定完成
L33	0.145	11.31	1,393	分佈收斂開始
L34	0.195	9.74	337	分佈收斂中
L35	0.207 ← $p_{\text{correct}}$ 峰值	8.67	155	分佈收斂完成

4.4 核心發現：兩個峰值不在同一層

🔑 關鍵觀察：logit_gap 在 L32 達到峰值（11.91），然後開始下降。$p_{\text{correct}}$ 和 rank 在 L32 之後繼續改善，到 L35 才達到最好。這說明 L32 之後發生的事，不是繼續往正確答案方向推，而是把整體分佈壓縮得更尖銳——消除其他 token 的機率質量，讓正確答案的相對優勢放大。

這分離出兩個不同性質的幾何操作：

操作一：方向設定（Direction Setting）L31–32
$\Delta h$ 強烈指向 $v_{\text{correct}}$，把 residual stream 的主方向轉向正確答案的 subspace。logit_gap 達到峰值 11.91。「我知道答案的方向在哪裡。」

操作二：分佈收斂（Distribution Sharpening）L33–35
$\Delta h$ 方向反轉，但在消除其他候選的機率質量。rank 從 3909 → 155，$p_{\text{correct}}$ 從 0.135 → 0.207。「我要把這個答案說清楚。」

✅ 解開 Exp A 的矛盾：Exp A 的末端反轉（L33–35 的 gap 為負）不是假說錯了。L33–35 的 MLP 在做「分佈收斂」而非「方向設定」——它的 $\Delta h$ 不指向正確答案，而是指向「消除其他候選答案的方向」。這在幾何上是反向的，但在結果上讓 $p_{\text{correct}}$ 持續上升。

類比：方向設定像是把望遠鏡對準目標，分佈收斂像是調整焦距讓影像銳利。兩件事都必要，但是完全不同的幾何操作，發生在不同的層。

五、整合：完整的層次分工圖景

把 Exp A 和 Exp-LL 整合，Qwen2.5-3B（共 36 層）的完整分工如下：

層	角色	關鍵指標
L0–3	特徵提取：tokenization 層面處理，方向接近隨機	gap ≈ +0.001
L4–29	語義理解：展開問題意思，暫時遠離答案方向（正常分工）	gap ≈ −0.002
L28–29	疑似 Saddle Point：gap 最低谷，準備切換任務	gap = −0.010，35% 正向
L30	過渡層：$p_{\text{correct}}$ 從 0.011 開始跳升至 0.029	—
L31–32	方向設定（Direction Setting）：$\Delta h$ 強烈指向 $v_{\text{correct}}$	gap = +0.033，80% 正向，logit_gap 峰值 11.91
L33–35	分佈收斂（Distribution Sharpening）：消除雜訊，壓縮分佈	rank 3909 → 155，$p_{\text{correct}}$ 0.135 → 0.207

📌 修正後的假說（Exp A + Exp-LL 整合版）：MLP Guider 的功能分兩個階段：Direction Setting（方向設定，L31–32）和 Distribution Sharpening（分佈收斂，L33–35）。前者改變 residual stream 的方向，後者在不改變主方向的情況下壓縮分佈的散度。兩者共同決定最終的 $P(\text{correct token})$。

六、Failure Modes

Hallucination（幻覺）：正確答案的 key 不在 context 裡，residual stream 無法找到正確的 attractor basin，收斂到「看起來穩定但語義上是錯的」local minimum。不是沒有收斂，而是收斂到了錯的地方。
CoT 自信說錯：Critical token 在 saddle point 之後選錯了方向，進入錯的 attractor basin。之後所有 reasoning token 都在那個錯的 basin 裡繼續收斂，整條推理鏈加強一個錯誤方向，model 還表現得很有信心。
Over-RL（過度強化學習）：RL 把 landscape 放大得太多（$x(x-3) \to 1000x(x-3)$），saddle point 附近過於陡峭，model 失去探索能力，永遠走同一條路。對應 reward hacking、mode collapse，在訓練分佈外的問題上完全失敗。

七、待驗證的開放問題

Exp-SP（Saddle Point 確認）：L28–29 的 gap 最低谷是否真的是 saddle point？在 L28–29 的 hidden state 加小噪音，看 final output 的變化是否比其他層更敏感（perturbation sensitivity）。如果是，代表 critical token 確實最可能出現在 L30 之後。
Exp-BYP（Bypass L33–35）：如果跳過 L33–35 直接接 lm_head，accuracy 是上升還是下降？預測：accuracy 下降，rank 分佈更散——確認 Distribution Sharpening 不是可有可無的步驟。
Exp B（MoE Router Ablation）：需要切換到 MoE model（如 Qwen1.5-MoE-A2.7B）。假說預測：強制關閉 router 選定的 expert，degradation 應遠大於關閉等量隨機 expert。

⚠️ 待形式化的弱點：（1）「潛力上限」目前定義為「base model 語義流形的邊界」，但在實踐上無法直接量測，需要更精確的可操作定義。（2）Saddle point 目前以 entropy proxy（output distribution entropy 最高的位置）作為替代量測，不是嚴格的幾何定義，Exp-SP 的目標之一是找到更好的操作定義。