記憶體成本爆炸，Grok 跑不動？

這幾個月，高階記憶體價格像是坐了火箭，一路狂飆。一張顯示卡幾千美金，上面那個 HBM 記憶體佔了快七成成本。這哪是賣 GPU，根本是賣記憶體搭 GPU。整個業界都快炸鍋了，從訓練大型模型到邊緣部署，記憶體成了卡脖子的最大問題。以前大家吵運算力，現在發現運算力有了，記憶體跟不上。這不是說笑，是真的影響到模型設計跟應用落地了。

尤其對 Grok 這種追求即時性、需要處理大量上下文的模型來說，記憶體瓶頸簡直是致命傷。Grok 的設計哲學就是要快，要能隨時跟上最新的資訊流。這代表它不僅要巨大的模型參數，還要能吃下更長的上下文窗口。現在動輒十萬、百萬 token 的上下文，對記憶體的需求是指數級增長。如果記憶體成本持續高漲，甚至缺貨，Grok 要如何維持快速迭代跟擴展？單純堆硬體肯定不是長久之計，因為硬體成本漲幅已經超過了摩爾定律的預期。從底層架構到上層算法，整個 xAI 都得重新考慮，如何在有限的記憶體資源下，把 Grok 的性能榨到極致。不然，速度再快，跑不起也白搭。

當然，這不光是 Grok 的問題。Claude 在處理長文本任務上，記憶體消耗一直不小，特別是當上下文長度突破數十萬 token 時，記憶體頻寬和容量的壓力就更大了。GPT-4o 雖然號稱多模態效率高，但真要跑起來處理複雜的多模態輸入，那記憶體還是吃得滿滿的。Gemini 在整合多種模態時，也面臨類似的挑戰。現在市面上，從 Yi 系列到 Qwen，甚至 Doubao，大家都在努力把模型做小、做精，試圖在記憶體和運算之間找平衡。但不管怎麼優化，HBM 的天價還是擺在那裡，繞不過去。這跟幾年前大家搶 CPU、搶 GPU 完全是兩種光景，現在是搶記憶體。

所以，接下來會怎麼走？是記憶體廠商真的會聯合起來把價格鎖死，還是會有新的技術突破能緩解這個窘境？難道我們要回到過去那種，為了省記憶體，拼命壓縮模型、犧牲性能的時代嗎？還是說，有人能找到辦法，徹底繞開這個高牆？總不能讓 AI 的發展，最後都卡在記憶體上吧？