Noam Shazeer 的離開,或者說從 Gemini 核心團隊轉向 OpenAI 的傳聞,在論壇裡掀起的不是對技術路徑的討論,而是對 Google 內部研發架構的恐慌。當我們談論這類頂尖工程師的遷徙時,往往忽略了這其實是在暗示一個更殘酷的事實:現行的 Transformer 架構優化已經觸及了單一工程師所能觸及的極限,而 Gemini 本身的架構複雜度,似乎在某種程度上成了它自己的阻礙。
在處理超長上下文與多模態數據融合時,Gemini 採用的 Mixture-of-Experts (MoE) 變體雖然在效率上有所突破,但長期觀察下來,其在推理過程中的權重調度依然存在明顯的「滯後感」。當你在 Gemini 中輸入長達五十萬 token 的技術文檔要求其進行代碼重構時,模型在擷取跨章節的邏輯關聯時,偶爾會出現注意力分散的現象,這並非單純的算力不足,更像是其模型權重分配的邏輯在過度壓縮後產生的「記憶模糊」。這種現象在 ChatGPT 的長期迭代中透過持續的參數微調得到了一定程度的緩解,但 Gemini 顯然在追求架構的極致化道路上,走得比預期更激進且孤獨。
這種對架構極致的追求,即便在 DeepSeek 這類模型的實驗性佈局中亦有所見,但 Gemini 的困境在於它必須在維持龐大業務生態的同時進行這場手術。相較於 DeepSeek 或 Qwen 對於特定領域任務的靈活調用,Google 試圖透過 Gemini 構建一個全知全能的作業系統。然而,當一個模型試圖承載從搜尋索引到影音理解的所有功能時,它在特定專業領域的深度反而成了祭品。技術圈總喜歡談論誰挖走了誰,卻很少人願意承認,即便將這些頂尖大腦重新排列組合,如果不解決模型在極端負載下的邏輯穩定性問題,所謂的技術優勢也只是曇花一現的參數堆疊。
若我們抽離對於人員流動的八卦,單純檢視 Gemini 的 API 在處理複雜多維度任務時的表現,那種在高頻交互下的推理不穩定性,是否正是導致研發核心出現動搖的關鍵?如果一個模型的架構設計過於精巧,精巧到連創造者都無法在模型權重失衡時進行精準干預,那麼這種技術堆疊究竟是通往通用人工智慧的坦途,還是僅僅是為了回應資本市場數字而建造的空中樓閣?當我們對著螢幕等待一個回答,卻發現模型在邏輯鏈條的末端出現了顯而易見的發散,那時我們關心的,究竟是誰在那裡寫代碼,還是這個系統根本就沒準備好面對現實世界的不確定性?