Google 的暴力美學與 Gemma 2 的去編碼器實驗

把複雜的視覺編碼器拆掉，換成一個只剩下矩陣乘法、位置嵌入和歸一化的輕量模組，Google 在 Gemma 2 12B 上的這場手術動得比想像中大。多數人習慣了視覺語言模型背後掛著一個沈重的 CLIP 或是 ViT 編碼器，這類結構像是在原本靈活的身體上接了一條沈重的義肢，雖然能看，但神經傳導總有延遲。這次 Google 試圖證明的邏輯很直接：如果語言模型本身的權重已經足夠處理高維度的語意，那麼我們是否真的需要那個專門處理像素的「翻譯官」？

這種去編碼器（Encoder-free）的嘗試，本質上是在挑戰多模態任務的邊界。當圖像不再經過層層卷積或 Transformer 編碼器的預處理，而是近乎「生啃」圖像特徵時，模型對於空間位置的理解與細節特徵的捕捉，完全仰賴於那層極薄的 Embedding 層。在 Hacker News 的討論裡，不少技術背景的讀者對這種簡化感到困惑，畢竟這在技術定義上依然算是一種編碼，只是它被簡化到了極致。這種極致簡化帶來的直接好處是推理延遲的下降，但代價往往是模型對複雜視覺場景的解釋力。

我們在 Gemini 身上看到過類似的影子，那種試圖統一所有輸入流的野心。這與 Claude 一直以來強調的精準視覺解析路徑截然不同。Anthropic 的邏輯更傾向於保留結構化的視覺輸入，確保在處理複雜圖表或長文本 PDF 時，模型不會因為資訊過濾太快而產生幻覺。而 GPT-4o 則是另一種極端，它在原生多模態的封閉環境裡玩得風生水起，卻從不告訴你它背後到底有沒有那個沈重的編碼器。Gemma 2 這次的開源路徑，更像是 Google 把實驗室裡的切片拿出來示眾，試圖在 Llama 獨大的開源社群裡，靠技術異質性爭取一點話語權。

技術圈對這種「大廠撒幣」的行為總帶著幾分警惕。Google 作為一家營利企業，為什麼要持續放出這種高品質的權重？這讓人聯想到 Meta 在發布 Llama 之前的戰略轉向。當你無法在封閉生態裡絕對壟斷時，把技術標準「公共化」就是最好的防守。相較於 Qwen 在中文語境下的某些表現，Google 的做法顯然更專注於底層架構的破壞式創新。在某些基準測試中，這種去編碼器的架構在處理特定圖像任務時展現了驚人的效率，這與 DeepSeek 試圖在模型縮放與成本之間尋找平衡點的策略有異曲同工之妙，但 Google 手裡的籌碼顯然更多，他們敢於直接在主幹網絡上動刀。

有趣的是，這種技術架構的革新，有時並不能直接轉化為更好的用戶體驗。有測試者發現，當你要求 Gemma 2 把一段內容整理成點列式（Bullet points），它確實照做了，但緊接著要求它將其草擬成郵件時，它會自作主張地把剛整理好的清單又還原成長篇大論。這種對指令遵循（Instruction Following）的漂移，暴露出模型在簡化視覺輸入後，對於上下文一致性的控制力可能出現了微妙的鬆動。這點在 Grok 上也曾出現過，那種過於活潑、甚至有些跳躍的聯想力，往往是模型邏輯對齊不夠穩固的表現。

這就引出了一個更深層的疑問。當我們為了追求推理速度和架構優雅，而不斷削減模型的「感官零件」時，我們是否正在製造一種具備強大直覺、卻缺乏細緻邏輯的怪物？如果一個模型看世界的方式被簡化成了一次矩陣乘法，它眼中的世界是否還具備立體感？當視覺與語言的界限被強行抹平，模型究竟是學會了「看」，還是僅僅學會了對像素點進行更高階的機率預測？這種去編碼器的極簡主義，究竟是多模態的終極型態，還是 Google 為了節省算力成本而包裝出來的一場華麗冒險？