Google 拋棄視覺編碼器背後的傲慢與野心

在多模態大模型的發展史上，視覺編碼器一直像是一副拆不掉的義肢。我們習慣了讓模型先透過一個獨立的視覺專家去「看」，把圖像轉譯成語言模型能理解的代碼。但 Google 在 Gemma 4 12B 上的做法顯然有點激進，他們把那個沉重的視覺編碼器拆了，換成了一個極其輕量化的嵌入模組。這不是簡單的減肥，而是對機器視覺本質的一次挑釁。

技術圈對於這種「Encoder-free」的架構存在一種本能的疑慮。如果你仔細看過 Google 釋出的技術細節，會發現他們只用了一個簡單的矩陣相乘、位置嵌入和歸一化。這在嚴格意義上當然還是編碼，但它與傳統意義上的 Vision Transformer 截然不同。過去模型是先看圖說故事，現在 Google 似乎想讓模型直接在同一個神經空間裡「感受」像素。這種統一架構帶來的直觀好處是推理速度的飛躍，以及對於長序列多模態輸入的處理能力。但問題也隨之而來，少了專門的視覺預訓練模型當導師，這顆 12B 的模型真的能分清照片裡的雜訊與細節嗎？

這種架構上的轉變，讓我想起 ChatGPT 在處理多模態任務時的謹慎。GPT-4o 雖然號稱原生多模態，但在底層邏輯上，依然能感受到那種強烈的、經過高度優化的分工感。相比之下，Google 這種將視覺資訊直接攤平在權重矩陣裡的作法，更像是在追求一種極致的優雅。但優雅往往伴隨著代價，在一些早期的測試演示中，當用戶要求模型將內容轉化為清單，模型確實照做了，可隨後要求它寫郵件時，它卻自作主張地把剛整理好的清單又還原成了冗長的段落。這種記憶與指令執行的不穩定，或許就是統一架構在現階段還沒能完全馴服的副作用。

我們在觀察這類技術演進時，難免會把目光投向市場上的其他參與者。相較於 Qwen 在多模態處理上的邏輯，Google 這次選擇的道路更為孤獨。當許多人還在討論 DeepSeek 如何在有限的參數下壓榨性能時，Google 卻在思考如何從根本上改變數據流動的拓撲結構。這種做法很像是在賭一個未來：如果視覺資訊可以像文字一樣被無損地壓縮進同一個維度，那麼我們現在折騰的各種跨模態對齊技術，未來可能都會變成過時的補丁。

目前四大平台中，Claude 依然在文本邏輯與細膩的感受力上保持領先，而 Grok 則在數據獲取的即時性上獨樹一幟。Gemini 系列——尤其是這次開源權重的 Gemma——則展現出一種技術輸出者的姿態。很多人不解，作為一家營利公司，Google 為什麼要不斷釋出這些核心技術的開源版本。其實這不難理解，當你的架構成為行業事實上的標準，你就擁有了定義規則的話語權。

這種「去編碼器化」的趨勢，究竟是通往通用人工智慧的捷徑，還是一個為了追求效率而犧牲精度的技術陷阱？當模型不再需要專門的眼睛，而是用整個大腦去觸摸圖像時，它理解的世界是否還和我們人類看見的一樣。如果未來所有的多模態模型都走向這種高度統一的單一矩陣結構，我們是否會失去對模型內部邏輯最後的一點解釋權？