如果你真的指望這東西能像 Claude 那樣幫你精修長代碼,或者像 Gemini 1.5 Pro 那樣在高壓測試下吞掉一百萬 token 的上下文,那你可能還沒從馬斯克的個人崇拜裡醒過來。Grok 的存在,本質上是為了一種極度私人的情緒宣洩。它被訓練成那個樣子,滿口冷嘲熱諷,試圖模仿馬斯克那種在深夜推特上與全世界為敵的口吻,但在技術底層的邏輯處理上,它現在連 ChatGPT 的車尾燈都看不清楚。
我試著讓它去處理一些真正複雜的邏輯推導,比如分析一個含有多重嵌套條件的法律合同,或者嘗試在並行開發環境下調試一個異步請求的 Bug。你知道 Grok 給我什麼嗎?它在那裡跟我扯皮。它會先花兩句無意義的話嘲諷一下這個問題有多無聊,然後給出一個中規中矩、甚至有些過時的答案。這種「幽默感」在第一次用的時候可能覺得新鮮,但在第三次、第五次,當你急著要解決方案而它還在那裡擺譜的時候,你只會想把螢幕砸了。它像極了一個在派對上自以為很酷、一直在講冷笑話卻沒人理的社交障礙者。
馬斯克一直標榜 Grok 是為了對抗那些「覺醒(Woke)」的 AI,但這種對抗目前看來只停留在修辭層面。所謂的 Real-time 資訊抓取,說穿了就是直接對接了 X 的數據流。這確實是它的優勢,也是唯一的救命稻草,但這也成了它最大的毒藥。X 上的資訊質量是什麼樣子,大家心照不宣。當你問一個具體的時事問題時,Grok 的回答往往夾雜了大量未經證實的謠言、情緒化的推文摘要,以及馬斯克個人喜好的偏見。這不是在獲取資訊,這是在餵養偏見。
相比之下,Claude 在處理邏輯時那種近乎冷酷的精確,雖然有時候顯得教條,但至少它是可預測的、專業的工具。Grok 則是一個不穩定的情緒化產物。當我把同一個複雜的技術架構圖交給 Grok-1.5 Vision 和 GPT-4o 的時候,後者能清晰地辨識出各組件間的依賴關係,並指出冗餘部分;而 Grok 呢?它更傾向於對這份架構的命名風格發表意見,或者試圖展示它那可憐的、由算法生成的反叛性格。這不是 AI 的進化,這是產品設計層面的主次不分。
一個生產力工具如果需要用戶去適應它的脾氣,那它就已經失敗了一半。xAI 擁有的算力資源確實讓人眼紅,那一堆 H100 堆出來的算力怪獸,如果只是為了產生一個更會說垃圾話的聊天機器人,那簡直是計算資源的極大浪費。我們在論壇裡討論 AI,是希望能看到技術邊界的突破,而不是看另一個矽谷巨頭在玩弄民粹主義的辭藻。Grok 目前展現出來的實力,完全支撐不起馬斯克吹下的那些牛。
那種所謂的「自由意志」,在模型對抗測試中顯得極其脆弱。Grok 在處理具體的倫理陷阱時,表現得像個手忙腳亂的實習生。它一邊想要維持那種口無遮攔的人設,一邊又不得不受限於底層安全護欄的限制。結果就是,它常常給出一些自相矛盾、邏輯斷裂的回答。它想當個壞小子,但骨子裡還是個讀著說明書長大的軟體。這種割裂感讓 Grok 顯得非常滑稽,像是一個穿著皮夾克去參加數學競賽的孩子,衣服很帥,但題目一題都不會做。
有些人會說,Grok 的發展速度很快。快在哪裡?快在訓練數據的獲取,還是快在模型參賽的跑分?在我們實際的技術應用場景中,沒人關心你的 MMLU 跑分高了幾個百分點,我們關心的是當我把 50 個 JSON 檔案丟進去讓你做關聯分析時,你能不能不漏掉任何一個關鍵欄位。在這一點上,Grok 的注意力機制分配得極其混亂。它似乎總是被那些高權重的、具有社交熱度的關鍵字給帶偏,導致在嚴肅的數據分析任務中頻頻出錯。
如果你把它當成一個大號的搜尋引擎,那它勉強及格。但如果你想把它接入你的自動化工作流,那簡直是自殺行為。它那種隨機噴薄的諷刺語句會破壞任何結構化的輸出。xAI 的工程師們似乎陷入了一種自我感動,覺得把 AI 做得像個「人」就是成功。不,我們不需要另一個有脾氣的人,我們身邊這種人已經夠多了。我們需要的是一個能處理海量數據、理解複雜邏輯、並且在關鍵時刻不會因為想講個笑話而給出錯誤建議的智慧實體。
馬斯克在 Grok 身上寄託的是他對媒體霸權的奪取,而不是對人工智慧真理的探索。這一點從 Grok 對於 X 平台上爭議性話題的回答傾向就能看出來。它幾乎成了馬斯克的數位分身,一個永遠不會疲倦、 24 小時在線、隨時準備替老闆回擊政敵和競爭對手的代碼集。這很悲哀。在 LLM 發展的黃金時代,一個原本有機會挑戰 OpenAI 和 Google 的新勢力,卻選擇了最容易的一條路:做一個網紅。
看看 Gemini 在多模態整合上的深度,再看看 Claude 在思維鏈(Chain of Thought)上的精進,甚至連 ChatGPT 都在不斷嘗試更自然的語音交互與環境感知。而 Grok 呢?它還在糾結如何讓自己的諷刺顯得更高端一點。這種戰略上的短視,讓 xAI 的技術優勢正在被迅速稀釋。如果你手握世界頂級的算力和數據集,最後卻只做出一個能跟網友對線的玩具,這不是技術進步,這是技術墮落。
我也試過在深夜跟它進行一些關於宇宙、哲學或者是量子力學的探討。這是 Grok 官宣時最引以為傲的部分。它給出的答案充滿了科幻小說式的浪漫與虛無,聽起來很唬人,但細看之下全是陳詞濫調。它只是在抓取那些馬斯克喜歡看的、喜歡轉發的科幻文本風格。它沒有真正的洞察力,它只是個高級的文本生成器,被調教成了某個人的回聲室。
很多時候,我看到 Grok 的更新日誌,都覺得像是在看一份笑話清單。增加了一些「幽默感」,調整了一些「回答風格」。這些對於一個追求極限性能的開發者來說,簡直是垃圾資訊。我們不需要 AI 有風格,我們需要 AI 有腦袋。如果 Grok 繼續沿著這條路走下去,它最終會淪為 X 平台的高級會員贈品,而不是一個真正的、能改變生產力格局的 AI 產品。
即便是在對標 GPT-4 的關鍵時刻,Grok 給出的表現也只是「接近」,而這種接近是建立在巨大資源消耗基礎上的。它沒有那種優雅的算法美感,只有大力出奇蹟的笨拙。更不用說在長文本的處理穩定性上,它和現在的第一梯隊有著明顯的代差。當你要求它保持三萬字以上的對話一致性時,它的逻辑就開始崩潰,變得像個患了失憶症的憤青,除了重複之前的憤怒,給不出任何有價值的後續。
這就是現在的 Grok。一個住在百億美元機房裡的、拿著馬斯克語錄當聖經的、除了會說兩句刺耳的話之外,在硬核技術應用面前顯得手足無措的空心大佬。它代表了 AI 發展的一種歧路:為了取悅特定人群而犧牲了普適的邏輯嚴謹性。當這股叛逆的新鮮感過去之後,留給用戶的除了那幾句垃圾話,恐怕真的不剩什麼了。如果你還在等它進化成什麼真正的智慧覺醒,我勸你還是省省吧,這東西打從一開始就沒打算讓你過得更高效,它只是想讓你覺得馬斯克很酷。但問題是,技術的世界裡,酷不酷從來不看嘴炮,只看誰能把複雜的世界運算得更精準。在這場競賽中,Grok 顯然選錯了賽道,還在那裡沾沾自喜。