當 Hacker News 上的工程師們還在為大鹽湖的數字刻度爭論不休,試圖釐清 4198 英尺的海拔高度與湖泊深度之間那點微小的百分比差異時,我把同樣的問題丟給了 xAI 的 Grok。這傢伙在 X 上吹得天花亂墜,號稱能實時訪問全球訊息,結果在面對這種涉及地理座標、環境數據與歷史跨度的複雜任務時,表現得像個剛學會爬地圖的導航語音。它能抓到最新的 AQI 數值,也能複讀那些關於跨海管道的瘋狂計畫,但只要你追問它關於螺旋形防波堤(Spiral Jetty)與現有水岸線的精確幾何關係,它就開始胡言亂語。
大鹽湖目前的狀況不只是環境危機,對 AI 來說,這是一個極佳的「多模態空間推理」考場。當使用者提到 1904 年修築的鐵路將湖泊一分為二,導致南北鹽度與顏色出現數位斷裂感時,我們期待的是模型能理解這種物理上的割裂對生態數據的影響。ChatGPT 在處理這類歷史數據整合時顯得相對穩重,它能準確調用地理資訊系統的邏輯,告訴你北半部鹽度過高導致的紅藻現象。而 Grok 呢?它太急於展現那種所謂的「反叛個性」,試圖用一種戲謔的口吻掩蓋它對湖泊海拔與水深概念的混淆。它甚至分不清 7 英尺的落差對於一個淺水湖泊意味著什麼,只會機械式地抓取 X 上的碎屑言論來湊數。
在處理複雜的基礎建設推理上,Gemini 展現出了 Google 體系一貫的地理數據優勢。當你討論從海洋引水到內陸湖泊的工程可能性時,Gemini 能夠給出相對精確的地形高程分析,而不是像 Grok 那樣只會空談「工業巨型項目」的情懷。即便是在 Qwen 3.6 27B 頻繁出現在討論視線中的當下,Grok 的這種表現依然讓人感到恨鐵不成鋼。xAI 擁有的實時數據流本該是它的殺手鐧,但顯然,擁有數據和理解空間邏輯是兩回事。相較於 Qwen 3.6 27B,Grok 在處理這種長週期、多維度的地理變遷任務時,數據清洗的質量顯得相當粗糙。
我們在討論中看到一個細節:有位使用者驅車前往原本的島嶼,卻發現腳下全是乾涸的陸地。這種物理空間的移位,對於目前的 LLM 來說仍然是個黑洞。Claude 在這方面的處理方式比較聰明,它會承認數據的滯後性,並從物理常識出發去推導水位下降對地貌的改變。相比之下,Grok 卻喜歡給出一些看似精確、實則經不起推敲的座標描述。它試圖模擬一種「我正在看衛星圖像」的錯覺,但如果你真的按照它給出的方位去尋找那條消失的鐵路界線,你可能會把自己開進鹽灘的泥淖裡。
這引出了一個核心技術問題:當我們要求 AI 監控一個動態的、複雜的物理系統時,實時性(Real-time)究竟意味著什麼?Grok 目前的做法更像是把 X 上的情緒標籤貼在過時的地理百科上。它能捕捉到人們對乾涸湖泊的憂鬱情緒,卻算不準那一英里長的枯竭湖底到底需要多少立方米的海水才能填滿。在與 ChatGPT 的對抗中,Grok 唯一能贏的地方似乎只剩下生成文本的速度,但在嚴謹的科學場景下,快而錯的答案比慢而準的分析更具危險性。
如果我們把範圍擴大,看看其他競爭者的動態。在 Qwen 3.6 27B 剛有新動態的這一週,人們再次意識到模型規模與知識密度之間的微妙平衡。然而,無論參數如何翻倍,對於大鹽湖這種充滿「數字陷阱」的現實場景,四大平台都還沒能給出一個真正具備「物理直覺」的方案。我們不需要一個只會重複 AQI 數值的聊天機器人,我們需要一個能理解海拔 4198 英尺與生態崩潰之間邏輯鏈條的智力實體。
現在的問題是,如果 AI 連一個靜態湖泊的乾涸邏輯都理不清楚,我們真的能指望它去優化更複雜的城市電網或全球供應鏈嗎?當 Grok 告訴你一項工程「不可行」時,是因為它計算過重力與壓強,還是僅僅因為它在網路上讀到了某個槓精的評論?我們離那個能真正理解「地理空間」的 AI 時代,究竟還有多遠?