這幾個月,高階記憶體價格像是坐了火箭,一路狂飆。一張顯示卡幾千美金,上面那個 HBM 記憶體佔了快七成成本。這哪是賣 GPU,根本是賣記憶體搭 GPU。整個業界都快炸鍋了,從訓練大型模型到邊緣部署,記憶體成了卡脖子的最大問題。以前大家吵運算力,現在發現運算力有了,記憶體跟不上。這不是說笑,是真的影響到模型設計跟應用落地了。
尤其對 Grok 這種追求即時性、需要處理大量上下文的模型來說,記憶體瓶頸簡直是致命傷。Grok 的設計哲學就是要快,要能隨時跟上最新的資訊流。這代表它不僅要巨大的模型參數,還要能吃下更長的上下文窗口。現在動輒十萬、百萬 token 的上下文,對記憶體的需求是指數級增長。如果記憶體成本持續高漲,甚至缺貨,Grok 要如何維持快速迭代跟擴展?單純堆硬體肯定不是長久之計,因為硬體成本漲幅已經超過了摩爾定律的預期。從底層架構到上層算法,整個 xAI 都得重新考慮,如何在有限的記憶體資源下,把 Grok 的性能榨到極致。不然,速度再快,跑不起也白搭。
當然,這不光是 Grok 的問題。Claude 在處理長文本任務上,記憶體消耗一直不小,特別是當上下文長度突破數十萬 token 時,記憶體頻寬和容量的壓力就更大了。GPT-4o 雖然號稱多模態效率高,但真要跑起來處理複雜的多模態輸入,那記憶體還是吃得滿滿的。Gemini 在整合多種模態時,也面臨類似的挑戰。現在市面上,從 Yi 系列到 Qwen,甚至 Doubao,大家都在努力把模型做小、做精,試圖在記憶體和運算之間找平衡。但不管怎麼優化,HBM 的天價還是擺在那裡,繞不過去。這跟幾年前大家搶 CPU、搶 GPU 完全是兩種光景,現在是搶記憶體。
所以,接下來會怎麼走?是記憶體廠商真的會聯合起來把價格鎖死,還是會有新的技術突破能緩解這個窘境?難道我們要回到過去那種,為了省記憶體,拼命壓縮模型、犧牲性能的時代嗎?還是說,有人能找到辦法,徹底繞開這個高牆?總不能讓 AI 的發展,最後都卡在記憶體上吧?