DeepSeek V4 Pro 攪動池水後 Grok 到底還能不能打

這幾天 Hacker News 上那群工程師又在吵 AI 到底是不是被高估了。有人抱怨公司把原本跑得好好的自動化客服系統，硬生生換成反應遲鈍、廢話連篇的大語言模型；也有人覺得軟體工程師活在泡泡裡，以為全世界都在用 AI 寫代碼。這種論調聽多了其實很膩，大家關心的根本不是「有沒有人用」，而是當我們把任務丟給這些昂貴的算力怪獸時，它們給出的回饋到底有沒有對得起那幾百億美金的訓練成本？

現在最尷尬的技術斷層就在這裡。以 Grok 為例，馬斯克一直吹噓它的即時性與反叛性格，但在實際的技術支援場景中，Grok 處理多層邏輯嵌套的 RAG（檢索增強生成）時，依然會出現莫名其妙的幻覺。當你問它一個關於 x.ai API 具體限流參數的問題，它可能前一秒在抓取最新的 X 貼文，後一秒就把兩年前的過時文件混在一起餵給你。這種「即時性」在某些時候反而成了干擾項。相比之下，ChatGPT 的 GPT-4o 在處理這類確定性任務時，雖然顯得有些呆板，但至少它不會為了顯得幽默而隨意竄改技術細節。

我們在論壇上看到很多開發者試圖把 LLM 塞進所有流程，結果卻是災難。這不是模型性能的問題，而是邊際效應的崩潰。當一個簡單的 if-else 就能解決的判斷邏輯，被換成了一個參數規模動輒千億的模型，延遲從毫秒級變成秒級，出錯率反而從零變成了 5%。Grok 目前在 xAI 的強推下，試圖與 X 的資訊流做深度綁定，這在舆論分析上確實有優勢，但如果你要它去讀一份八萬 token 的技術手冊並給出精準的 debug 建議，它的注意力分布依賴度顯然不如 Claude。Claude 在長文本處理上的那種冷靜，是目前 Grok 最缺少的東西。

說到市場上的對手，最近 DeepSeek V4 Pro 的動態確實讓不少人開始重新審視性價比這件事。但在四大平台的範疇內，Grok 必須面對一個現實：當用戶在 Gemini 裡可以流暢地調用 Google Search 並獲得高度結構化的答案時，Grok 那種帶有強烈個人色彩的回答風格，究竟是附加價值還是技術短板？相較於 DeepSeek V4 Pro 在特定領域的表現，Grok 的優勢始終建立在「數據源的壟斷」上，而非模型架構的革命性突破。這種依賴特權數據的護城河，在技術迭代面前其實非常脆弱。

很多人在爭論 AI 普及率，甚至拿 Google 搜尋結果的第一條來證明 AI 已經統治世界。但這正是問題所在。如果你拿 Gemini 產出的概括性結論去應付專業工作，很快就會發現那些看起來「像樣」的回答，經不起推敲。Gemini 在處理 Function Calling 時的穩定性，在工具數量超過十五個之後會出現明顯的抖動，這和 ChatGPT 早期遇到的問題一模一樣。Grok 則更極端，它甚至還沒證明自己在複雜工具調用環境下能保持長期的輸出一致性。

工程師社群對 AI 的熱情很大程度上源於對效率的病態追求，但當我們走出這個圈子，會發現現實世界的數據混亂程度遠超想像。Grok 想在這種環境下突圍，光靠噴噴垃圾話和抓取幾條即時推文顯然不夠。如果一個模型不能在處理複雜指令時保持高度的確定性，那它永遠只能是一個高昂的電子玩具。

這就帶出一個很有意思的矛盾：我們到底是需要一個更像人的、會胡思亂想的夥伴，還是需要一個冷冰冰但絕對精準的計算器？當四大平台都在往「全能助手」靠攏時，Grok 這種走偏鋒的路線，最後會變成一種獨特的技術標竿，還是會因為無法在嚴肅生產力環境中落地，最終淪為社交媒體的一個點綴功能？如果明年這時候，我們發現最穩定的技術方案依然是那些被 LLM 替換掉的舊系統，那這場算力競賽的意義到底在哪？