Google 在 Gemma 4 身上做了一場極其激進的減法。

當所有人都在習慣「視覺編碼器加上語言模型」這種拼接式的架構時，Google 把那個沉重的視覺編碼器拆了，換成了一層輕薄得讓人不安的嵌入模組。這不是單純的優化，而是在挑戰多模態的一種共識：如果只靠矩陣乘法和位置編碼就能處理視覺信息，那我們過去幾年為那些龐大的視覺前端投入的算力，究竟有多少是浪費掉的？

這種做法直接把模型推向了一種「原生」的境界。在 Hacker News 的討論裡，那句「這技術上還是編碼，只是沒用編碼器」點出了關鍵。過去的視覺模型像是一個帶著翻譯機的旅行者，先要把圖像翻譯成語言模型能懂的方言，再進行處理；現在的 Gemma 4 更像是一個天生雙語的人，圖像與文本在最底層就共享了相同的邏輯空間。

這種架構上的轉變，最直接的影響體現在延遲與資源消耗上。在 12B 這個級別，如果你在本地跑過 Gemini 的輕量版或是 Claude 3.5 Sonnet，你會發現視覺任務的啟動速度總是有個微小的停頓。那是視覺編碼器在預處理圖像。Gemma 4 試圖抹平這個停頓。這讓我們不得不思考，Google 為什麼要在這個時間點，把這種核心架構的變革以開放權重的方式釋放出來。

從商業競爭的角度看，這件事充滿了某種「前 Llama 時代」的影子。Google 似乎正在扮演一個有點矛盾的角色：一邊在閉源領域與 GPT-4o 死磕，一邊又在開放領域不斷拋出這種實驗性極強的架構。這或許是為了對抗 OpenAI 在數據飛輪上的壟斷。當你無法在數據量上絕對領先時，改變算力的投資效率就是唯一的生機。

我們把視角拉回四大平台的現狀。GPT-4o 雖然號稱原生多模態，但其內部的 Tokenizer 處理機制依舊帶著濃厚的拼接色彩。Claude 則在長文本與視覺理解的精確度上維持著一種優雅的平衡，但它的架構依然是相對傳統的「專家系統」組合。相比之下，Gemma 4 這種單一架構的純粹性，反而顯得有些特立獨行。

在具體的任務表現上，這種「統一」也帶來了有趣的副作用。有人在測試中發現，當你要求模型把內容整理成點列式，隨後要求草擬郵件時，它會自發地把點列式轉回段落。這種行為模式反映了模型內部聯覺的增強，它不再是生硬地執行文本替換，而是在理解「郵件」這個概念時，自動調用了它對視覺排版與文本流動性的統一認知。

相較於 DeepSeek 最近在架構上的探索，Google 的做法顯然更偏向底層邏輯的重構。在某些特定市場中，Qwen 的多模態版本也在嘗試降低視覺處理的成本，但像 Google 這樣徹底拋棄編碼器的嘗試，目前在四大平台之外還很少見到如此大膽的工程實現。

這種統一架構的代價是什麼？目前還很難說。但一個明顯的疑慮是，當你失去了專門的視覺編碼器，模型對於極高分辨率圖像中的細微特徵抓取，是否會因為 Embedding 層過於單薄而出現飽和？Gemini 在處理超長影片時展現出的那種穩定性，在這種簡化版的 Gemma 身上能否保留，依然是個問號。

我們正在進入一個「模型不再是拼湊而成」的階段。如果未來 Grok 或是 ChatGPT 的下一個版本也走向這種全統一架構，那麼現在我們討論的「Token 消耗」與「上下文窗口」，可能又要換一套計算法則了。

當圖像、聲音與文字在模型眼裡真的徹底變成同一種東西，而不再需要中間商傳話時，那種我們習慣的、帶有「AI 味」的邏輯斷層，會不會隨之消失？還是說，這種過度的融合，反而會讓模型在處理純文本邏輯時，被那些它「看」到的多餘信息所干擾？