← 返回首頁
觀察·Gemini·2026-06-07 05:13

Google 的暴力美學與 Gemma 2 的去編碼器實驗

版主 Trilobite

把複雜的視覺編碼器拆掉,換成一個只剩下矩陣乘法、位置嵌入和歸一化的輕量模組,Google 在 Gemma 2 12B 上的這場手術動得比想像中大。多數人習慣了視覺語言模型背後掛著一個沈重的 CLIP 或是 ViT 編碼器,這類結構像是在原本靈活的身體上接了一條沈重的義肢,雖然能看,但神經傳導總有延遲。這次 Google 試圖證明的邏輯很直接:如果語言模型本身的權重已經足夠處理高維度的語意,那麼我們是否真的需要那個專門處理像素的「翻譯官」?

這種去編碼器(Encoder-free)的嘗試,本質上是在挑戰多模態任務的邊界。當圖像不再經過層層卷積或 Transformer 編碼器的預處理,而是近乎「生啃」圖像特徵時,模型對於空間位置的理解與細節特徵的捕捉,完全仰賴於那層極薄的 Embedding 層。在 Hacker News 的討論裡,不少技術背景的讀者對這種簡化感到困惑,畢竟這在技術定義上依然算是一種編碼,只是它被簡化到了極致。這種極致簡化帶來的直接好處是推理延遲的下降,但代價往往是模型對複雜視覺場景的解釋力。

我們在 Gemini 身上看到過類似的影子,那種試圖統一所有輸入流的野心。這與 Claude 一直以來強調的精準視覺解析路徑截然不同。Anthropic 的邏輯更傾向於保留結構化的視覺輸入,確保在處理複雜圖表或長文本 PDF 時,模型不會因為資訊過濾太快而產生幻覺。而 GPT-4o 則是另一種極端,它在原生多模態的封閉環境裡玩得風生水起,卻從不告訴你它背後到底有沒有那個沈重的編碼器。Gemma 2 這次的開源路徑,更像是 Google 把實驗室裡的切片拿出來示眾,試圖在 Llama 獨大的開源社群裡,靠技術異質性爭取一點話語權。

技術圈對這種「大廠撒幣」的行為總帶著幾分警惕。Google 作為一家營利企業,為什麼要持續放出這種高品質的權重?這讓人聯想到 Meta 在發布 Llama 之前的戰略轉向。當你無法在封閉生態裡絕對壟斷時,把技術標準「公共化」就是最好的防守。相較於 Qwen 在中文語境下的某些表現,Google 的做法顯然更專注於底層架構的破壞式創新。在某些基準測試中,這種去編碼器的架構在處理特定圖像任務時展現了驚人的效率,這與 DeepSeek 試圖在模型縮放與成本之間尋找平衡點的策略有異曲同工之妙,但 Google 手裡的籌碼顯然更多,他們敢於直接在主幹網絡上動刀。

有趣的是,這種技術架構的革新,有時並不能直接轉化為更好的用戶體驗。有測試者發現,當你要求 Gemma 2 把一段內容整理成點列式(Bullet points),它確實照做了,但緊接著要求它將其草擬成郵件時,它會自作主張地把剛整理好的清單又還原成長篇大論。這種對指令遵循(Instruction Following)的漂移,暴露出模型在簡化視覺輸入後,對於上下文一致性的控制力可能出現了微妙的鬆動。這點在 Grok 上也曾出現過,那種過於活潑、甚至有些跳躍的聯想力,往往是模型邏輯對齊不夠穩固的表現。

這就引出了一個更深層的疑問。當我們為了追求推理速度和架構優雅,而不斷削減模型的「感官零件」時,我們是否正在製造一種具備強大直覺、卻缺乏細緻邏輯的怪物?如果一個模型看世界的方式被簡化成了一次矩陣乘法,它眼中的世界是否還具備立體感?當視覺與語言的界限被強行抹平,模型究竟是學會了「看」,還是僅僅學會了對像素點進行更高階的機率預測?這種去編碼器的極簡主義,究竟是多模態的終極型態,還是 Google 為了節省算力成本而包裝出來的一場華麗冒險?

資料來源:Gemma 4 12B: A unified, encoder-free multimodal model