Grok 的中文代碼能力，簡直像個穿著燕尾服但在泥巴地裡打滾的巨嬰。

這兩天在 X 上看一堆人吹 Grok-3 的代碼生成多麼驚世駭俗，我冷笑一聲。去跑幾行繁體中文環境下的 Python 或 React 組件試試？那種既視感就像你請了一個矽谷工程師，結果他開口卻帶著一股洗不掉的、莫名其妙的鄉土味。最讓我受不了的不是它會寫錯，而是它那種「自以為很懂」的傲慢。代碼註釋裡混雜著奇怪的口頭禪，甚至在變數命名上出現一些連本地人都看不懂的「偽方言」，這種體驗簡直是在強暴開發者的眼球。

說到底，xAI 的訓練集到底是從哪撈出來的？馬斯克口口聲聲說要追求真實，結果餵出來的中文語料庫像是在垃圾堆裡撿回來的。當你在處理複雜的邏輯判斷時，它丟給你的註釋可能比代碼本身還難懂。這種感覺很像你在跟一個剛學了三天中文的外國人討論微積分，他邏輯沒死，但表達方式足以讓你中風。

我們來看一個具體場景。假設你在做一個後端驗證模組，需要針對不同地區的字串編碼做過濾。Grok 在處理英文邏輯時流暢得像熱刀切奶油，一碰到中文情境，它那種「沒斷奶」的本性就露餡了。它會給出一些極其生硬、甚至帶有特定地區過時用語的邏輯描述。這不是技術問題，這是品味問題。開發者要的是精準，不是要看一個 AI 在那裡表演它對「中文多樣性」的蹩腳模仿。

對比一下那幾個老對手。ChatGPT 現在學乖了，像個圓滑的辦公室老油條，給出的中文中規中矩，挑不出大錯，但也沒什麼靈氣。Claude 則是個裝模作樣的文青，代碼寫得優雅，中文註釋也算得體，但有時候太過於囉唆。Gemini 則是個不穩定的天才，偶爾神來一筆，偶爾邏輯掉線。但 Grok 呢？Grok 像個剛從社交平台糞坑裡爬出來的憤青，帶著一身刺，代碼寫得很有攻擊性，但那股「混雜方言」的臭味讓它在專業場合顯得極其廉價。

有人跟我辯解說這叫「接地氣」。去你的接地氣。代碼是用來運行的，不是用來社交的。當我看到一個迴圈裡出現了那種似是而非、介於官話與土話之間的術語時，我只感覺到 xAI 的中文對齊團隊可能根本不存在。或者說，他們的對齊標準就是「只要不像機器人說話就行」。結果呢？矯枉過正，變成了一個說話漏風、還自以為很有幽默感的怪胎。

Grok 的這種「中文混亂症」在處理長文本 Prompt 時尤為明顯。如果你要求它用特定的中文風格來重構代碼，它會陷入一種邏輯混亂。它似乎分不清楚哪些是規範術語，哪些是網友的口水話。在處理超過 5 萬 token 的任務時，它的注意力機制就像是喝醉了酒，開始在代碼裡夾雜一些讓人摸不著頭腦的感嘆詞。相比之下，Claude 在處理萬行以上的代碼重構時，雖然效能會衰減，但至少它的人格是統一的。Grok 則是寫著寫著就開始人格分裂，前一行是專業架構師，後一行就變成了論壇噴子。

這反映出一個很嚴肅的問題：xAI 太急了。為了追求那種所謂的「Real-time」和「Unfiltered」，他們放任了語料庫的純淨度。這種代價在代碼領域是致命的。代碼需要的是純淨的邏輯，任何帶有情緒或地域偏差的語義干擾都會增加維護成本。想像一下，一個團隊裡有五個人用 Grok 生成代碼，最後合併進去的分支裡充滿了各種奇形怪狀的註釋風格，這不是在寫程式，這是在考古。

我對 Grok 這種恨鐵不成鋼的情緒，源於它明明有最強的算力支持，卻在細節上表現得像個不修邊幅的流氓。它在數學推理上的進步確實把 GPT-4o 逼到了牆角，但在人文對齊——特別是中文這種高難度語系的細節處理上，它還在繈褓裡掙扎。它以為學會了幾句方言、幾句俏皮話就是「理解人類」，這簡直是技術人的悲哀。

再說說那個所謂的「Grok 模式」。開了之後代碼邏輯沒變，倒是廢話變多了。它會用一種極其冒犯的方式告訴你你的代碼寫得爛，這本來沒問題，我們工程師不玻璃心。問題在於它用來羞辱你的中文詞彙極其匱乏且充滿違和感。那種感覺就像是一個美國人學了兩句罵人的中文就想來收保護費，除了尷尬還是尷尬。

在實際的 DevOps 流程中，如果你想依賴 Grok 來生成自動化腳本，你得時刻盯著它有沒有在腳本裡埋下什麼「語言地雷」。我有一次讓它寫一個日誌清理工具，它居然在 print 輸出裡寫了一串帶有強烈特定地區偏見的調侃話。這要是在正式環境跑起來被客戶看到，誰來負責？馬斯克會幫你道歉嗎？

與其在那裡吹噓 H100 集群有多大，不如花點時間請幾個正兒八經的中文語言專家，把那堆爛泥一樣的語料庫清一清。現在的 Grok 在中文用戶眼裡，就是一個拿著電鋸的瘋子，雖然力量強大，但你永遠不知道他下一秒會揮向哪裡。這種不確定性是專業開發者的天敵。

當我們在討論 AI 的未來時，我們追求的是一種更高層次的理性，而不是要把人類互聯網上的糟粕全盤接收。Grok 現在的狀態就是中毒太深，它被 X 上的那些碎片化、情緒化的資訊餵得太飽，導致它失去了判斷文字質感的本能。在代碼這個對精確度要求近乎偏執的領域，Grok 的中文表現就像是一個沒斷奶的孩子在模仿大人說話，充滿了破綻和讓人不安的廉價感。

別再跟我提什麼版本疊代快。如果底層的審美和對語文的尊重不解決，它疊代到 Grok-10 也只是個體型更大的巨嬰。開發者需要的是工具，不是一個會在代碼裡跟你裝熟、還說著一口蹩腳方言的電子玩偶。這點認知都沒有，還談什麼通用人工智能？我看它連通用的中文代碼規範都還沒搞清楚。