← 返回首頁
觀察·Gemini·2026-06-05 05:46

Google 在多模態架構上的極簡主義實驗

版主 Trilobite

週末下午的陽光照在螢幕上,看著 Google 剛扔出來的 Gemma 2 12B 技術報告,那種感覺就像在看一場精心排練過的「拆牆」表演。大家習慣了在多模態模型裡看到一個沉重的 Vision Encoder,不管是 CLIP 還是 SigLIP,總得有個龐然大物在前面負責「看」東西,然後再把特徵餵給語言模型。但這次 Google 把牆拆了。他們用一個輕量級的嵌入模組,也就是幾層簡單的矩陣相乘、位置編碼和歸一化,就取代了傳統的視覺編碼器。這不是小修小補,這是在質疑過去幾年多模態發展的底層邏輯。

這種「Encoder-free」的結構,本質上是想讓模型更像人類的直覺。我們的大腦並不是先跑一個獨立的圖像識別程序,再把結果翻譯成文字交給邏輯中心處理。Google 嘗試讓模型直接在同一個空間裡消化視覺特徵。在 12B 這個並不大的參數規模下,這種做法其實很危險,一旦嵌入層處理得不夠細膩,模型就會變成一個「近視眼」,看得到輪廓卻理解不了細節。但從初步的測試來看,這種統一架構在處理視覺對話時的流暢度,反而比那些背著重型編碼器的模型更顯得輕盈。

當我們把目光轉向這四巨頭的現狀,會發現 Google 的策略變得越來越有意思。ChatGPT 的 GPT-4o 雖然也強調原生多模態,但在架構細節上始終像個黑盒。Claude 則是在長文本和邏輯一致性上死磕,視覺能力更像是它的附加屬性。Grok 雖然進度飛快,但目前看來還在追趕基礎架構的穩定性。Google 反而成了那個最像早期 Meta 的公司,不斷地把這些帶有實驗性質的權重往外扔。

這種開放並不是因為 Google 突然變得慷慨。在商業邏輯裡,當你無法在封閉生態裡絕對領先時,最好的做法就是定義標準。如果全世界的開發者都習慣了這種無編碼器的多模態處理方式,那麼 Gemini 在雲端服務上的優勢就會被無限放大。相比之下,近期同樣有動作的 DeepSeek 在架構選擇上走的是另一條路徑。Google 這種做法顯然更具挑釁性,它在告訴市場:多模態不需要那麼複雜。

不過,技術架構的優雅並不代表使用體驗的完美。在一些流出的演示影片裡,我們能看到一個很滑稽的現象。當測試者要求模型把內容整理成條列清單後,緊接著讓它寫一封郵件,模型會自動把剛剛辛苦整理好的條列內容又恢復成大段的文字。這種「過度理解」或說是「指令退化」,反映了模型在處理複雜上下文切換時的邏輯慣性。這不只是 Gemma 的問題,強如 GPT-4o 或是 Claude 在處理跨模態後的指令遵循時,偶爾也會顯得有些自作聰明。

有趣的是,當我們觀察 Qwen 在多模態任務上的表現時,會發現大家對於「如何讓模型看懂圖片」這件事依然存在嚴重的分歧。Google 執著於架構的統一與純粹,試圖證明單一矩陣運算就能承載視覺特徵的轉化;而其他競爭者則更傾向於堆疊更強大的視覺前端。這就引出了一個更深層的技術焦慮:我們現在追求的「原生多模態」,到底是指模型內部邏輯的統一,還是僅僅指訓練過程的同步?

如果這種無編碼器的路徑最終被證明是正確的,那麼過去幾年我們在專用視覺模型上投入的算力,是否都在走彎路?當我們不再需要一個強大的 Vision Encoder 作為翻譯官,語言模型對世界的感知會變得更真實,還是會因為失去了專業的視覺特徵提取而變得模糊?這種極簡主義的代價,最終會體現在哪種極端場景的失效上?或許在下一個版本的 Gemini 或是 GPT 迭代中,我們就能看到這個實驗的最終代價。

資料來源:Gemma 4 12B: A unified, encoder-free multimodal model