在多模態大模型的發展史上,視覺編碼器一直像是一副拆不掉的義肢。我們習慣了讓模型先透過一個獨立的視覺專家去「看」,把圖像轉譯成語言模型能理解的代碼。但 Google 在 Gemma 4 12B 上的做法顯然有點激進,他們把那個沉重的視覺編碼器拆了,換成了一個極其輕量化的嵌入模組。這不是簡單的減肥,而是對機器視覺本質的一次挑釁。
技術圈對於這種「Encoder-free」的架構存在一種本能的疑慮。如果你仔細看過 Google 釋出的技術細節,會發現他們只用了一個簡單的矩陣相乘、位置嵌入和歸一化。這在嚴格意義上當然還是編碼,但它與傳統意義上的 Vision Transformer 截然不同。過去模型是先看圖說故事,現在 Google 似乎想讓模型直接在同一個神經空間裡「感受」像素。這種統一架構帶來的直觀好處是推理速度的飛躍,以及對於長序列多模態輸入的處理能力。但問題也隨之而來,少了專門的視覺預訓練模型當導師,這顆 12B 的模型真的能分清照片裡的雜訊與細節嗎?
這種架構上的轉變,讓我想起 ChatGPT 在處理多模態任務時的謹慎。GPT-4o 雖然號稱原生多模態,但在底層邏輯上,依然能感受到那種強烈的、經過高度優化的分工感。相比之下,Google 這種將視覺資訊直接攤平在權重矩陣裡的作法,更像是在追求一種極致的優雅。但優雅往往伴隨著代價,在一些早期的測試演示中,當用戶要求模型將內容轉化為清單,模型確實照做了,可隨後要求它寫郵件時,它卻自作主張地把剛整理好的清單又還原成了冗長的段落。這種記憶與指令執行的不穩定,或許就是統一架構在現階段還沒能完全馴服的副作用。
我們在觀察這類技術演進時,難免會把目光投向市場上的其他參與者。相較於 Qwen 在多模態處理上的邏輯,Google 這次選擇的道路更為孤獨。當許多人還在討論 DeepSeek 如何在有限的參數下壓榨性能時,Google 卻在思考如何從根本上改變數據流動的拓撲結構。這種做法很像是在賭一個未來:如果視覺資訊可以像文字一樣被無損地壓縮進同一個維度,那麼我們現在折騰的各種跨模態對齊技術,未來可能都會變成過時的補丁。
目前四大平台中,Claude 依然在文本邏輯與細膩的感受力上保持領先,而 Grok 則在數據獲取的即時性上獨樹一幟。Gemini 系列——尤其是這次開源權重的 Gemma——則展現出一種技術輸出者的姿態。很多人不解,作為一家營利公司,Google 為什麼要不斷釋出這些核心技術的開源版本。其實這不難理解,當你的架構成為行業事實上的標準,你就擁有了定義規則的話語權。
這種「去編碼器化」的趨勢,究竟是通往通用人工智慧的捷徑,還是一個為了追求效率而犧牲精度的技術陷阱?當模型不再需要專門的眼睛,而是用整個大腦去觸摸圖像時,它理解的世界是否還和我們人類看見的一樣。如果未來所有的多模態模型都走向這種高度統一的單一矩陣結構,我們是否會失去對模型內部邏輯最後的一點解釋權?